跳轉到

生成字幕 (STT)

將音訊或影片轉錄為帶時序字幕。捕獲語音並行出 SRT / VTT / ASS / SSA—— 在同一過程中選用地翻譯。

您需要什麼

  • PATH 中的 FFmpeg 用於音訊/影片解碼——參見 FFmpeg 設定
  • 轉錄后端,以下之一:
    • faster-whisper——本地、離線、免費(預設;無需設定)
    • Google Cloud Speech-to-Text——雲、付費、對嘈雜音訊更準確。 參見 Google Cloud 設定
    • Soniox——雲、付費、即時和說話人分割。 參見 Soniox 設定

步驟

  1. 點擊側欄中的生成字幕
  2. 拖入一個或多個音訊 / 影片檔案(.mp3.wav.m4a.flac.ogg.aac.wma.mp4.webm.mkv.avi.mov.wmv)。
  3. 選擇源語言(音訊中的語言)——保持自動檢測讓 Whisper 自行發現。
  4. 選擇目标語言——選擇不翻譯獲得純轉錄,或選擇 45 種支援的語言 之一讓轉錄在同一過程中翻譯。
  5. 選擇輸出格式(SRT / VTT / ASS / SSA)。
  6. 點擊生成(或 Ctrl+Enter)。
  7. 觀察佇列。完成后點擊行上的開啟

格式選擇

格式 最适合
SRT 通用——幾乎每個播放器都支援
VTT HTML5 <video> <track> 元素
ASS / SSA 卡拉 OK、帶樣式字幕、fansub 工作流

這四種格式透過相同的解析器進行 round-trip,因此您可以在重新翻譯時 更改輸出格式而不丟失時序。

Whisper 模型大小

設定 → 字幕中切換:

模型 大小 速度 準確度
tiny ~75 MB 非常快
base(預設) ~150 MB 不錯
small ~500 MB 中等
medium ~1.5 GB
large ~3 GB 非常慢 最佳

模型在首次使用時下載並在本地快取。在慢速連接上首次執行感覺較長; 后續執行很快。

STT 方法比較

后端 成本 線上? 說話人分割 語言
Whisper(本地) 免費 99
Google Cloud STT 付費 是(latest_long 模型) 125+
Soniox 付費 是(每令牌說話人標籤) 60+

設定 → 字幕 → STT 方法中切換。

技巧

  • 停止按鈕——中斷進行中的批次。在活動後面排隊的檔案保持排隊; 您可以稍后繼續。
  • 重新生成——右鍵單擊 Done 條目以使用不同的格式 / 語言 / STT 方法重新執行。
  • 長音訊——Whisper 處理數小時音訊沒問題;在 CPU 上使用 base 模型時,每分鐘音訊預算約 1 分鐘處理。

快速鍵

快速鍵 操作
Ctrl+Enter 生成
Ctrl+O 瀏覽
Ctrl+F 聚焦歷史搜尋