跳转至

生成字幕 (STT)

将音频或视频转录为带时序字幕。捕获语音并发出 SRT / VTT / ASS / SSA—— 在同一过程中可选地翻译。

您需要什么

  • PATH 中的 FFmpeg 用于音频/视频解码——参见 FFmpeg 设置
  • 转录后端,以下之一:
    • faster-whisper——本地、离线、免费(默认;无需设置)
    • Google Cloud Speech-to-Text——云、付费、对嘈杂音频更准确。 参见 Google Cloud 设置
    • Soniox——云、付费、实时和说话人分割。 参见 Soniox 设置

步骤

  1. 点击侧边栏中的生成字幕
  2. 拖入一个或多个音频 / 视频文件(.mp3.wav.m4a.flac.ogg.aac.wma.mp4.webm.mkv.avi.mov.wmv)。
  3. 选择源语言(音频中的语言)——保持自动检测让 Whisper 自行发现。
  4. 选择目标语言——选择不翻译获得纯转录,或选择 45 种支持的语言 之一让转录在同一过程中翻译。
  5. 选择输出格式(SRT / VTT / ASS / SSA)。
  6. 点击生成(或 Ctrl+Enter)。
  7. 观察队列。完成后点击行上的打开

格式选择

格式 最适合
SRT 通用——几乎每个播放器都支持
VTT HTML5 <video> <track> 元素
ASS / SSA 卡拉 OK、带样式字幕、fansub 工作流

这四种格式通过相同的解析器进行 round-trip,因此您可以在重新翻译时 更改输出格式而不丢失时序。

Whisper 模型大小

设置 → 字幕中切换:

模型 大小 速度 准确度
tiny ~75 MB 非常快
base(默认) ~150 MB 不错
small ~500 MB 中等
medium ~1.5 GB
large ~3 GB 非常慢 最佳

模型在首次使用时下载并在本地缓存。在慢速连接上首次运行感觉较长; 后续运行很快。

STT 方法比较

后端 成本 在线? 说话人分割 语言
Whisper(本地) 免费 99
Google Cloud STT 付费 是(latest_long 模型) 125+
Soniox 付费 是(每令牌说话人标签) 60+

设置 → 字幕 → STT 方法中切换。

技巧

  • 停止按钮——中断进行中的批次。在活动后面排队的文件保持排队; 您可以稍后继续。
  • 重新生成——右键单击 Done 条目以使用不同的格式 / 语言 / STT 方法重新运行。
  • 长音频——Whisper 处理数小时音频没问题;在 CPU 上使用 base 模型时,每分钟音频预算约 1 分钟处理。

快捷键

快捷键 操作
Ctrl+Enter 生成
Ctrl+O 浏览
Ctrl+F 聚焦历史搜索