实时翻译¶
来自麦克风、系统音频或两者的实时字幕和翻译 — 可选的始终置顶覆盖窗口 让字幕浮在你正在观看的任何内容之上。
你能用它做什么¶
- 实时会议字幕 — 为 Zoom / Meet / Teams 通话添加另一种语言的字幕, 无需作为翻译机器人加入。
- 实时语言学习 — 为外语内容(电影、播客、讲座)添加你母语的翻译 字幕轨道。
- 系统级字幕 — 捕获系统音频,为 YouTube / Netflix / 任何在你扬声器 上播放的内容添加字幕。
你需要什么¶
PATH中的 FFmpeg — 见 FFmpeg 设置。-
一个 STT 后端,以下之一:
- faster-whisper — 本地,离线,免费,默认
- Soniox — 云端,付费,实时说话人分离。见 Soniox 设置。
-
对于系统音频捕获,每个 OS 的正确后端会自动选择:Linux 使用
parec(PulseAudio / PipeWire),Windows 使用原生 WASAPI 环回(大多 数情况下无需额外软件),macOS 使用ffmpeg -f avfoundation配合虚拟 环回设备(BlackHole / Loopback / 等)。如果缺少什么,会显示带有可点击 安装链接的内联警告横幅。完整的每 OS 安装说明见 设置 → 系统音频。
操作步骤¶
- 在侧边栏点击实时翻译。
-
在设置 → Live 中配置一次:
- 源语言(说话的语言)
- 目标语言(或留空仅用于转录)
- 音频源:麦克风 / 系统音频 / 两者
- STT 方法:Whisper / Soniox
-
回到 Live 页面,点击开始(
Ctrl+Enter)。 - 转录会逐张卡片填充主面板。浮动覆盖窗口也显示字幕(拖动到你想 要的位置)。
- 点击停止结束会话。
转录视图¶
在工具栏中选择布局:
- 两者堆叠 — 原文 + 翻译,一上一下
- 两者并排 — 原文在左,翻译在右
- 仅原文 / 仅翻译
工具栏按钮使用 ON / OFF 后缀来一目了然地显示状态 —
例如 TTS ON、TTS OFF、Timestamps ON、Overlay OFF。
用时钟图标切换时间戳开关。用扬声器图标切换翻译行的 TTS 播放。 遵循你在设置 → 语音 → TTS 方法中的选择 — Edge TTS(默认)、 ElevenLabs、Google Cloud TTS、Gemini TTS 或 Piper TTS(完全离线)。 选择 Piper 时,缺失的每语言语音会在流过程中静默回退到 Edge TTS — 此页面没有模态预检查,因为用下载对话框阻塞实时流会比回退更糟糕。
覆盖窗口¶
可拖动、可调整大小、始终置顶的工具窗口。快捷键:
| 快捷键 | 操作 |
|---|---|
Ctrl+[ / Ctrl+] |
降低 / 提高不透明度 |
Ctrl+方向键 |
移动覆盖窗口 |
Ctrl+0 / Ctrl+9 |
放大 / 缩小 |
位置、大小、不透明度和字体大小在会话之间保持。
与设置实时同步¶
字体大小和透明度控件双向工作:在设置 → 实时翻译 → 覆盖层
配置中拖动字体大小或透明度滑块会实时更新已打开
的覆盖层,反之,在覆盖层内按 + / - / Ctrl+[ /
Ctrl+] 会更新设置中的滑块。无需重新打开覆盖层。
空状态占位符¶
在捕获任何音频之前,覆盖层显示一个占位符("按开始..." 空闲 / "正在监听..." 点击开始后),反映主窗口的空状态 —— 切换与 正在运行的状态指示保持同步。占位符会根据覆盖层当前的宽度 × 高度进行缩放,以便在任何窗口大小下保持可读。
精简字幕模式¶
设置 → 实时翻译 → 覆盖层配置中的显示精简字幕复选框会 隐藏覆盖层上的时间戳和说话人标签,同时在主窗口上保持可见。 在向观众共享覆盖层时(演讲者模式 / 屏幕共享)很有用,但您 希望在自己的工作视图中保留完整的元数据。此切换仅适用于覆 盖层 —— 它不会更改主窗口的"说话人标签"偏好。
保存转录¶
点击保存转录将会话导出为带有时间戳、说话人、原始行和翻译行的
.txt 文件。
选择 STT 后端¶
| 后端 | 最适合 | 成本 | 延迟 |
|---|---|---|---|
| Whisper(本地) | 离线,注重隐私 | 免费 | 中等(句末后约 1 秒) |
| Soniox | 多说话人会议 | 付费(约 $0.005 / 分钟) | 低(实时) |
注意事项¶
麦克风选择
麦克风输入始终使用 OS 默认设备 — 应用内没有选择器(sounddevice 暴露的虚拟 ALSA 插件太多无法实用,OS 已经拥有默认麦克风 UI)。开始 前在你的 OS 声音设置中设置首选麦克风。
TTS 背压
TTS 队列限制为最近 3 个句子 — 如果合成跟不上,较旧的排队音频会被 丢弃。这能让语音播放接近屏幕上的字幕。
无密钥的 ElevenLabs
如果你将 TTS 方法设为 ElevenLabs 但没有配置 API 密钥,Live 页面会 自动回退到 Edge TTS,并在状态标签中宣布回退。
快捷键¶
| 快捷键 | 操作 |
|---|---|
Ctrl+Enter |
开始 / 停止 |
Ctrl+K |
清除日志(带确认) |
Ctrl+[ / Ctrl+] |
调整覆盖窗口不透明度 |