字幕生成 (STT)¶

音声または動画をタイミング付き字幕に転写します。音声を取り込み SRT / VTT / ASS / SSA を出力 — 同じパスでオプションの翻訳付き。

必要なもの¶

音声/動画デコード用に PATH に FFmpeg — FFmpeg セットアップを参照。
転写バックエンド、以下のいずれか:
- faster-whisper — ローカル、オフライン、無料(デフォルト;セットアップ不要)
- Google Cloud Speech-to-Text — クラウド、有料、ノイジーな音声でより正確。 Google Cloud セットアップを参照。
- Soniox — クラウド、有料、リアルタイムと話者ダイアライゼーション。 Soniox セットアップを参照。

サイドバーの 字幕生成 をクリック。
音声 / 動画ファイルを 1 つ以上ドロップ(.mp3、.wav、.m4a、 .flac、.ogg、.aac、.wma、.mp4、.webm、.mkv、 .avi、.mov、.wmv)。
ソース言語 を選択(音声で 話されている 言語) — Whisper に判断させるには 自動検出 のままに。
ターゲット言語 を選択 — プレーンな転写には 翻訳なし を、または転写を同じパスで翻訳するためにサポートされる 45 言語のいずれかを選択。
出力形式 を選択(SRT / VTT / ASS / SSA)。
生成をクリック(または Ctrl+Enter)。
キューを見守ります。完了したら行で開くをクリック。

4 つの形式は同じパーサーを round-trip するので、再翻訳時にタイミングを失わずに出力形式を切り替えできます。

設定 → 字幕 で切り替え:

モデルは初回使用時にダウンロードされ、ローカルにキャッシュされます。低速接続では初回実行は長く感じますが、以降は高速です。

バックエンド	コスト	オンライン?	話者ダイアライゼーション	言語
Whisper(ローカル)	無料	いいえ	いいえ	99
Google Cloud STT	有料	はい	はい(`latest_long` モデル)	125+
Soniox	有料	はい	はい(トークンごとの話者ラベル)	60+

設定 → 字幕 → STT 方法 で切り替え。

停止ボタン — 実行中のバッチを中断。アクティブの後ろにキューイングされたファイルはキューに残ります;後で再開できます。
再生成 — 別の形式 / 言語 / STT 方法で再実行するには、Done エントリを右クリック。
長い音声 — Whisper は何時間もの音声を問題なく処理します; CPU の base モデルで音声 1 分あたり約 1 分の処理を見込みます。