字幕生成 (STT)¶
音声または動画をタイミング付き字幕に転写します。音声を取り込み SRT / VTT / ASS / SSA を出力 — 同じパスでオプションの翻訳付き。
必要なもの¶
- 音声/動画デコード用に
PATHに FFmpeg — FFmpeg セットアップ を参照。 - 転写バックエンド、以下のいずれか:
- faster-whisper — ローカル、オフライン、無料(デフォルト;セットアップ不要)
- Google Cloud Speech-to-Text — クラウド、有料、ノイジーな音声でより正確。 Google Cloud セットアップ を参照。
- Soniox — クラウド、有料、リアルタイムと話者ダイアライゼーション。 Soniox セットアップ を参照。
ステップ¶
- サイドバーの 字幕生成 をクリック。
- 音声 / 動画ファイルを 1 つ以上ドロップ(
.mp3、.wav、.m4a、.flac、.ogg、.aac、.wma、.mp4、.webm、.mkv、.avi、.mov、.wmv)。 - ソース言語 を選択(音声で 話されている 言語) —
Whisper に判断させるには
自動検出のままに。 - ターゲット言語 を選択 — プレーンな転写には
翻訳なしを、 または転写を同じパスで翻訳するためにサポートされる 45 言語の いずれかを選択。 - 出力形式 を選択(SRT / VTT / ASS / SSA)。
- 生成 をクリック(または
Ctrl+Enter)。 - キューを見守ります。完了したら行で 開く をクリック。
形式の選択¶
| 形式 | 最適 |
|---|---|
| SRT | 汎用 — ほぼすべてのプレーヤーがサポート |
| VTT | HTML5 <video> <track> 要素 |
| ASS / SSA | カラオケ、スタイル付き字幕、ファンサブのワークフロー |
4 つの形式は同じパーサーを round-trip するので、再翻訳時にタイミング を失わずに出力形式を切り替えできます。
Whisper モデルサイズ¶
設定 → 字幕 で切り替え:
| モデル | サイズ | 速度 | 精度 |
|---|---|---|---|
tiny |
~75 MB | 非常に高速 | 低 |
base(デフォルト) |
~150 MB | 高速 | まずまず |
small |
~500 MB | 中 | 良い |
medium |
~1.5 GB | 遅い | 高 |
large |
~3 GB | 非常に遅い | 最高 |
モデルは初回使用時にダウンロードされ、ローカルにキャッシュされます。 低速接続では初回実行は長く感じますが、以降は高速です。
STT 方法の比較¶
| バックエンド | コスト | オンライン? | 話者ダイアライゼーション | 言語 |
|---|---|---|---|---|
| Whisper(ローカル) | 無料 | いいえ | いいえ | 99 |
| Google Cloud STT | 有料 | はい | はい(latest_long モデル) |
125+ |
| Soniox | 有料 | はい | はい(トークンごとの話者ラベル) | 60+ |
設定 → 字幕 → STT 方法 で切り替え。
ヒント¶
- 停止ボタン — 実行中のバッチを中断。アクティブの後ろにキューイング されたファイルはキューに残ります;後で再開できます。
- 再生成 — 別の形式 / 言語 / STT 方法で再実行するには、Done エントリ を右クリック。
- 長い音声 — Whisper は何時間もの音声を問題なく処理します;
CPU の
baseモデルで音声 1 分あたり約 1 分の処理を見込みます。
ショートカット¶
| ショートカット | アクション |
|---|---|
Ctrl+Enter |
生成 |
Ctrl+O |
参照 |
Ctrl+F |
履歴検索にフォーカス |