生成字幕 (STT)¶

將音訊或影片轉錄為帶時序字幕。捕獲語音並行出 SRT / VTT / ASS / SSA—— 在同一過程中選用地翻譯。

您需要什麼¶

PATH 中的 FFmpeg 用於音訊/影片解碼——參見 FFmpeg 設定。
轉錄后端,以下之一:
- faster-whisper——本地、離線、免費(預設;無需設定)
- Google Cloud Speech-to-Text——雲、付費、對嘈雜音訊更準確。參見 Google Cloud 設定。
- Soniox——雲、付費、即時和說話人分割。參見 Soniox 設定。

點擊側欄中的生成字幕。
拖入一個或多個音訊 / 影片檔案(.mp3、.wav、.m4a、.flac、 .ogg、.aac、.wma、.mp4、.webm、.mkv、.avi、 .mov、.wmv)。
選擇源語言(音訊中說的語言)——保持自動檢測讓 Whisper 自行發現。
選擇目标語言——選擇不翻譯獲得純轉錄,或選擇 45 種支援的語言之一讓轉錄在同一過程中翻譯。
選擇輸出格式(SRT / VTT / ASS / SSA)。
點擊生成(或 Ctrl+Enter)。
觀察佇列。完成后點擊行上的開啟。

這四種格式透過相同的解析器進行 round-trip,因此您可以在重新翻譯時更改輸出格式而不丟失時序。

在設定 → 字幕中切換:

模型在首次使用時下載並在本地快取。在慢速連接上首次執行感覺較長; 后續執行很快。

后端	成本	線上?	說話人分割	語言
Whisper(本地)	免費	否	否	99
Google Cloud STT	付費	是	是(`latest_long` 模型)	125+
Soniox	付費	是	是(每令牌說話人標籤)	60+

在設定 → 字幕 → STT 方法中切換。