生成字幕 (STT)¶
将音频或视频转录为带时序字幕。捕获语音并发出 SRT / VTT / ASS / SSA—— 在同一过程中可选地翻译。
您需要什么¶
PATH中的 FFmpeg 用于音频/视频解码——参见 FFmpeg 设置。- 转录后端,以下之一:
- faster-whisper——本地、离线、免费(默认;无需设置)
- Google Cloud Speech-to-Text——云、付费、对嘈杂音频更准确。 参见 Google Cloud 设置。
- Soniox——云、付费、实时和说话人分割。 参见 Soniox 设置。
步骤¶
- 点击侧边栏中的生成字幕。
- 拖入一个或多个音频 / 视频文件(
.mp3、.wav、.m4a、.flac、.ogg、.aac、.wma、.mp4、.webm、.mkv、.avi、.mov、.wmv)。 - 选择源语言(音频中说的语言)——保持
自动检测让 Whisper 自行发现。 - 选择目标语言——选择
不翻译获得纯转录,或选择 45 种支持的语言 之一让转录在同一过程中翻译。 - 选择输出格式(SRT / VTT / ASS / SSA)。
- 点击生成(或
Ctrl+Enter)。 - 观察队列。完成后点击行上的打开。
格式选择¶
| 格式 | 最适合 |
|---|---|
| SRT | 通用——几乎每个播放器都支持 |
| VTT | HTML5 <video> <track> 元素 |
| ASS / SSA | 卡拉 OK、带样式字幕、fansub 工作流 |
这四种格式通过相同的解析器进行 round-trip,因此您可以在重新翻译时 更改输出格式而不丢失时序。
Whisper 模型大小¶
在设置 → 字幕中切换:
| 模型 | 大小 | 速度 | 准确度 |
|---|---|---|---|
tiny |
~75 MB | 非常快 | 低 |
base(默认) |
~150 MB | 快 | 不错 |
small |
~500 MB | 中等 | 好 |
medium |
~1.5 GB | 慢 | 高 |
large |
~3 GB | 非常慢 | 最佳 |
模型在首次使用时下载并在本地缓存。在慢速连接上首次运行感觉较长; 后续运行很快。
STT 方法比较¶
| 后端 | 成本 | 在线? | 说话人分割 | 语言 |
|---|---|---|---|---|
| Whisper(本地) | 免费 | 否 | 否 | 99 |
| Google Cloud STT | 付费 | 是 | 是(latest_long 模型) |
125+ |
| Soniox | 付费 | 是 | 是(每令牌说话人标签) | 60+ |
在设置 → 字幕 → STT 方法中切换。
技巧¶
- 停止按钮——中断进行中的批次。在活动后面排队的文件保持排队; 您可以稍后继续。
- 重新生成——右键单击 Done 条目以使用不同的格式 / 语言 / STT 方法重新运行。
- 长音频——Whisper 处理数小时音频没问题;在 CPU 上使用
base模型时,每分钟音频预算约 1 分钟处理。
快捷键¶
| 快捷键 | 操作 |
|---|---|
Ctrl+Enter |
生成 |
Ctrl+O |
浏览 |
Ctrl+F |
聚焦历史搜索 |