コンテンツにスキップ

字幕生成 (STT)

音声または動画をタイミング付き字幕に転写します。音声を取り込み SRT / VTT / ASS / SSA を出力 — 同じパスでオプションの翻訳付き。

必要なもの

  • 音声/動画デコード用に PATHFFmpegFFmpeg セットアップ を参照。
  • 転写バックエンド、以下のいずれか:
    • faster-whisper — ローカル、オフライン、無料(デフォルト;セットアップ不要)
    • Google Cloud Speech-to-Text — クラウド、有料、ノイジーな音声でより正確。 Google Cloud セットアップ を参照。
    • Soniox — クラウド、有料、リアルタイムと話者ダイアライゼーション。 Soniox セットアップ を参照。

ステップ

  1. サイドバーの 字幕生成 をクリック。
  2. 音声 / 動画ファイルを 1 つ以上ドロップ(.mp3.wav.m4a.flac.ogg.aac.wma.mp4.webm.mkv.avi.mov.wmv)。
  3. ソース言語 を選択(音声で 話されている 言語) — Whisper に判断させるには 自動検出 のままに。
  4. ターゲット言語 を選択 — プレーンな転写には 翻訳なし を、 または転写を同じパスで翻訳するためにサポートされる 45 言語の いずれかを選択。
  5. 出力形式 を選択(SRT / VTT / ASS / SSA)。
  6. 生成 をクリック(または Ctrl+Enter)。
  7. キューを見守ります。完了したら行で 開く をクリック。

形式の選択

形式 最適
SRT 汎用 — ほぼすべてのプレーヤーがサポート
VTT HTML5 <video> <track> 要素
ASS / SSA カラオケ、スタイル付き字幕、ファンサブのワークフロー

4 つの形式は同じパーサーを round-trip するので、再翻訳時にタイミング を失わずに出力形式を切り替えできます。

Whisper モデルサイズ

設定 → 字幕 で切り替え:

モデル サイズ 速度 精度
tiny ~75 MB 非常に高速
base(デフォルト) ~150 MB 高速 まずまず
small ~500 MB 良い
medium ~1.5 GB 遅い
large ~3 GB 非常に遅い 最高

モデルは初回使用時にダウンロードされ、ローカルにキャッシュされます。 低速接続では初回実行は長く感じますが、以降は高速です。

STT 方法の比較

バックエンド コスト オンライン? 話者ダイアライゼーション 言語
Whisper(ローカル) 無料 いいえ いいえ 99
Google Cloud STT 有料 はい はい(latest_long モデル) 125+
Soniox 有料 はい はい(トークンごとの話者ラベル) 60+

設定 → 字幕 → STT 方法 で切り替え。

ヒント

  • 停止ボタン — 実行中のバッチを中断。アクティブの後ろにキューイング されたファイルはキューに残ります;後で再開できます。
  • 再生成 — 別の形式 / 言語 / STT 方法で再実行するには、Done エントリ を右クリック。
  • 長い音声 — Whisper は何時間もの音声を問題なく処理します; CPU の base モデルで音声 1 分あたり約 1 分の処理を見込みます。

ショートカット

ショートカット アクション
Ctrl+Enter 生成
Ctrl+O 参照
Ctrl+F 履歴検索にフォーカス