跳转至

实时翻译

来自麦克风、系统音频或两者的实时字幕和翻译 — 可选的始终置顶覆盖窗口 让字幕浮在你正在观看的任何内容之上。

你能用它做什么

  • 实时会议字幕 — 为 Zoom / Meet / Teams 通话添加另一种语言的字幕, 无需作为翻译机器人加入。
  • 实时语言学习 — 为外语内容(电影、播客、讲座)添加你母语的翻译 字幕轨道。
  • 系统级字幕 — 捕获系统音频,为 YouTube / Netflix / 任何在你扬声器 上播放的内容添加字幕。

你需要什么

  • PATH 中的 FFmpeg — 见 FFmpeg 设置
  • 一个 STT 后端,以下之一:

    • faster-whisper — 本地,离线,免费,默认
    • Soniox — 云端,付费,实时说话人分离。见 Soniox 设置
  • 对于系统音频捕获,每个 OS 的正确后端会自动选择:Linux 使用 parec(PulseAudio / PipeWire),Windows 使用原生 WASAPI 环回(大多 数情况下无需额外软件),macOS 使用 ffmpeg -f avfoundation 配合虚拟 环回设备(BlackHole / Loopback / 等)。如果缺少什么,会显示带有可点击 安装链接的内联警告横幅。完整的每 OS 安装说明见 设置 → 系统音频

操作步骤

  1. 在侧边栏点击实时翻译
  2. 设置 → Live 中配置一次:

    • 源语言(说话的语言)
    • 目标语言(或留空仅用于转录)
    • 音频源:麦克风 / 系统音频 / 两者
    • STT 方法:Whisper / Soniox
  3. 回到 Live 页面,点击开始Ctrl+Enter)。

  4. 转录会逐张卡片填充主面板。浮动覆盖窗口也显示字幕(拖动到你想 要的位置)。
  5. 点击停止结束会话。

转录视图

在工具栏中选择布局:

  • 两者堆叠 — 原文 + 翻译,一上一下
  • 两者并排 — 原文在左,翻译在右
  • 仅原文 / 仅翻译

工具栏按钮使用 ON / OFF 后缀来一目了然地显示状态 — 例如 TTS ONTTS OFFTimestamps ONOverlay OFF

用时钟图标切换时间戳开关。用扬声器图标切换翻译行的 TTS 播放。 遵循你在设置 → 语音 → TTS 方法中的选择 — Edge TTS(默认)、 ElevenLabs、Google Cloud TTS、Gemini TTS 或 Piper TTS(完全离线)。 选择 Piper 时,缺失的每语言语音会在流过程中静默回退到 Edge TTS — 此页面没有模态预检查,因为用下载对话框阻塞实时流会比回退更糟糕。

覆盖窗口

可拖动、可调整大小、始终置顶的工具窗口。快捷键:

快捷键 操作
Ctrl+[ / Ctrl+] 降低 / 提高不透明度
Ctrl+方向键 移动覆盖窗口
Ctrl+0 / Ctrl+9 放大 / 缩小

位置、大小、不透明度和字体大小在会话之间保持。

与设置实时同步

字体大小和透明度控件双向工作:在设置 → 实时翻译 → 覆盖层 配置中拖动字体大小透明度滑块会实时更新已打开 的覆盖层,反之,在覆盖层内按 + / - / Ctrl+[ / Ctrl+] 会更新设置中的滑块。无需重新打开覆盖层。

空状态占位符

在捕获任何音频之前,覆盖层显示一个占位符("按开始..." 空闲 / "正在监听..." 点击开始后),反映主窗口的空状态 —— 切换与 正在运行的状态指示保持同步。占位符会根据覆盖层当前的宽度 × 高度进行缩放,以便在任何窗口大小下保持可读。

精简字幕模式

设置 → 实时翻译 → 覆盖层配置中的显示精简字幕复选框会 隐藏覆盖层上的时间戳和说话人标签,同时在主窗口上保持可见。 在向观众共享覆盖层时(演讲者模式 / 屏幕共享)很有用,但您 希望在自己的工作视图中保留完整的元数据。此切换仅适用于覆 盖层 —— 它不会更改主窗口的"说话人标签"偏好。

保存转录

点击保存转录将会话导出为带有时间戳、说话人、原始行和翻译行的 .txt 文件。

选择 STT 后端

后端 最适合 成本 延迟
Whisper(本地) 离线,注重隐私 免费 中等(句末后约 1 秒)
Soniox 多说话人会议 付费(约 $0.005 / 分钟) 低(实时)

注意事项

麦克风选择

麦克风输入始终使用 OS 默认设备 — 应用内没有选择器(sounddevice 暴露的虚拟 ALSA 插件太多无法实用,OS 已经拥有默认麦克风 UI)。开始 前在你的 OS 声音设置中设置首选麦克风。

TTS 背压

TTS 队列限制为最近 3 个句子 — 如果合成跟不上,较旧的排队音频会被 丢弃。这能让语音播放接近屏幕上的字幕。

无密钥的 ElevenLabs

如果你将 TTS 方法设为 ElevenLabs 但没有配置 API 密钥,Live 页面会 自动回退到 Edge TTS,并在状态标签中宣布回退。

快捷键

快捷键 操作
Ctrl+Enter 开始 / 停止
Ctrl+K 清除日志(带确认)
Ctrl+[ / Ctrl+] 调整覆盖窗口不透明度