生成字幕 (STT)¶

将音频或视频转录为带时序字幕。捕获语音并发出 SRT / VTT / ASS / SSA—— 在同一过程中可选地翻译。

您需要什么¶

PATH 中的 FFmpeg 用于音频/视频解码——参见 FFmpeg 设置。
转录后端,以下之一:
- faster-whisper——本地、离线、免费(默认;无需设置)
- Google Cloud Speech-to-Text——云、付费、对嘈杂音频更准确。参见 Google Cloud 设置。
- Soniox——云、付费、实时和说话人分割。参见 Soniox 设置。

点击侧边栏中的生成字幕。
拖入一个或多个音频 / 视频文件(.mp3、.wav、.m4a、.flac、 .ogg、.aac、.wma、.mp4、.webm、.mkv、.avi、 .mov、.wmv)。
选择源语言(音频中说的语言)——保持自动检测让 Whisper 自行发现。
选择目标语言——选择不翻译获得纯转录,或选择 45 种支持的语言之一让转录在同一过程中翻译。
选择输出格式(SRT / VTT / ASS / SSA)。
点击生成(或 Ctrl+Enter)。
观察队列。完成后点击行上的打开。

这四种格式通过相同的解析器进行 round-trip,因此您可以在重新翻译时更改输出格式而不丢失时序。

在设置 → 字幕中切换:

模型在首次使用时下载并在本地缓存。在慢速连接上首次运行感觉较长; 后续运行很快。

后端	成本	在线?	说话人分割	语言
Whisper(本地)	免费	否	否	99
Google Cloud STT	付费	是	是(`latest_long` 模型)	125+
Soniox	付费	是	是(每令牌说话人标签)	60+

在设置 → 字幕 → STT 方法中切换。