生成字幕 (STT)¶
將音訊或影片轉錄為帶時序字幕。捕獲語音並行出 SRT / VTT / ASS / SSA—— 在同一過程中選用地翻譯。
您需要什麼¶
PATH中的 FFmpeg 用於音訊/影片解碼——參見 FFmpeg 設定。- 轉錄后端,以下之一:
- faster-whisper——本地、離線、免費(預設;無需設定)
- Google Cloud Speech-to-Text——雲、付費、對嘈雜音訊更準確。 參見 Google Cloud 設定。
- Soniox——雲、付費、即時和說話人分割。 參見 Soniox 設定。
步驟¶
- 點擊側欄中的生成字幕。
- 拖入一個或多個音訊 / 影片檔案(
.mp3、.wav、.m4a、.flac、.ogg、.aac、.wma、.mp4、.webm、.mkv、.avi、.mov、.wmv)。 - 選擇源語言(音訊中說的語言)——保持
自動檢測讓 Whisper 自行發現。 - 選擇目标語言——選擇
不翻譯獲得純轉錄,或選擇 45 種支援的語言 之一讓轉錄在同一過程中翻譯。 - 選擇輸出格式(SRT / VTT / ASS / SSA)。
- 點擊生成(或
Ctrl+Enter)。 - 觀察佇列。完成后點擊行上的開啟。
格式選擇¶
| 格式 | 最适合 |
|---|---|
| SRT | 通用——幾乎每個播放器都支援 |
| VTT | HTML5 <video> <track> 元素 |
| ASS / SSA | 卡拉 OK、帶樣式字幕、fansub 工作流 |
這四種格式透過相同的解析器進行 round-trip,因此您可以在重新翻譯時 更改輸出格式而不丟失時序。
Whisper 模型大小¶
在設定 → 字幕中切換:
| 模型 | 大小 | 速度 | 準確度 |
|---|---|---|---|
tiny |
~75 MB | 非常快 | 低 |
base(預設) |
~150 MB | 快 | 不錯 |
small |
~500 MB | 中等 | 好 |
medium |
~1.5 GB | 慢 | 高 |
large |
~3 GB | 非常慢 | 最佳 |
模型在首次使用時下載並在本地快取。在慢速連接上首次執行感覺較長; 后續執行很快。
STT 方法比較¶
| 后端 | 成本 | 線上? | 說話人分割 | 語言 |
|---|---|---|---|---|
| Whisper(本地) | 免費 | 否 | 否 | 99 |
| Google Cloud STT | 付費 | 是 | 是(latest_long 模型) |
125+ |
| Soniox | 付費 | 是 | 是(每令牌說話人標籤) | 60+ |
在設定 → 字幕 → STT 方法中切換。
技巧¶
- 停止按鈕——中斷進行中的批次。在活動後面排隊的檔案保持排隊; 您可以稍后繼續。
- 重新生成——右鍵單擊 Done 條目以使用不同的格式 / 語言 / STT 方法重新執行。
- 長音訊——Whisper 處理數小時音訊沒問題;在 CPU 上使用
base模型時,每分鐘音訊預算約 1 分鐘處理。
快速鍵¶
| 快速鍵 | 操作 |
|---|---|
Ctrl+Enter |
生成 |
Ctrl+O |
瀏覽 |
Ctrl+F |
聚焦歷史搜尋 |