Dịch trực tiếp¶

Phụ đề và bản dịch theo thời gian thực từ microphone, âm thanh hệ thống, hoặc cả hai — kèm cửa sổ overlay luôn-trên-cùng tùy chọn để phụ đề nằm trên thứ bạn đang xem.

Bạn có thể làm gì¶

Phụ đề cuộc họp trực tiếp — phụ đề cuộc gọi Zoom / Meet / Teams ở ngôn ngữ khác mà không cần tham gia với tư cách bot phiên dịch.
Học ngôn ngữ thời gian thực — phụ đề nội dung tiếng nước ngoài (phim, podcast, bài giảng) với ngôn ngữ mẹ đẻ làm track dịch.
Phụ đề toàn hệ thống — bắt âm thanh hệ thống để phụ đề YouTube / Netflix / bất cứ thứ gì phát qua loa.

Bạn cần gì¶

FFmpeg trên PATH — xem Cài FFmpeg.
Một backend STT, một trong:
- faster-whisper — local, offline, miễn phí, mặc định
- Soniox — cloud, có phí, phân biệt người nói thời gian thực. Xem Cài Soniox.
Cho bắt âm thanh hệ thống, backend phù hợp cho từng OS được tự chọn: Linux dùng parec (PulseAudio / PipeWire), Windows dùng WASAPI loopback nguyên bản (không cần phần mềm ngoài trong hầu hết trường hợp), macOS dùng ffmpeg -f avfoundation với thiết bị loopback ảo (BlackHole / Loopback / v.v.). Một banner cảnh báo inline với link cài đặt có thể nhấp xuất hiện nếu thiếu thứ gì đó. Xem Cài đặt → Âm thanh hệ thống để có hướng dẫn cài đặt đầy đủ theo OS.

Hướng dẫn từng bước¶

Nhấp Dịch trực tiếp ở thanh bên.
Cấu hình một lần trong Cài đặt → Trực tiếp:
- Ngôn ngữ nguồn (ngôn ngữ được nói)
- Ngôn ngữ đích (hoặc để trống nếu chỉ phiên âm)
- Nguồn âm thanh: Microphone / Âm thanh hệ thống / Cả hai
- Phương thức STT: Whisper / Soniox
Quay lại trang Live, nhấp Bắt đầu nghe (Ctrl+Enter).
Bản phiên âm điền vào ô chính theo từng card. Cửa sổ Overlay nổi cũng hiển thị phụ đề (kéo nó tới đâu cũng được).
Nhấp Dừng để kết thúc phiên.

Khu vực hiển thị transcript¶

Chọn bố cục ở thanh công cụ:

Xếp chồng lên nhau — gốc + dịch, một trên một dưới
Hiển thị cạnh nhau — gốc bên trái, dịch bên phải
Chỉ nguồn / Chỉ bản dịch

Các nút thanh công cụ dùng hậu tố ON / OFF để liếc qua biết trạng thái — ví dụ TTS ON, TTS OFF, Timestamps ON, Overlay OFF.

Bật/tắt timestamps với icon đồng hồ. Bật/tắt phát TTS của các dòng đã dịch với icon loa. Tuân theo lựa chọn Cài đặt → Giọng → Phương thức TTS — Edge TTS (mặc định), ElevenLabs, Google Cloud TTS, Gemini TTS, hoặc Piper TTS (hoàn toàn offline). Khi chọn Piper, voice theo ngôn ngữ bị thiếu sẽ âm thầm fallback về Edge TTS giữa chừng — không có pre-flight modal trên trang này, vì chặn luồng live bằng hộp thoại tải về sẽ tệ hơn fallback.

Cửa sổ overlay¶

Cửa sổ công cụ kéo được, đổi kích thước được, luôn-trên-cùng. Phím tắt:

Phím tắt	Hành động
`Ctrl+[` / `Ctrl+]`	Giảm / tăng độ trong suốt
`Ctrl+Arrow`	Di chuyển overlay
`Ctrl+0` / `Ctrl+9`	To ra / nhỏ lại

Vị trí, kích thước, độ trong suốt và cỡ font được giữ giữa các phiên.

Đồng bộ trực tiếp với Cài đặt¶

Điều khiển kích thước phông và độ trong suốt hoạt động hai chiều: kéo thanh trượt Kích thước phông hoặc Độ trong suốt trong Cài đặt → Dịch trực tiếp → Cấu hình lớp phủ sẽ cập nhật lớp phủ đang mở theo thời gian thực; và ngược lại, nhấn + / - / Ctrl+[ / Ctrl+] bên trong lớp phủ sẽ cập nhật các thanh trượt trong Cài đặt. Không cần khởi động lại lớp phủ.

Trạng thái rỗng (placeholder)¶

Trước khi có bất kỳ âm thanh nào được ghi, lớp phủ hiển thị một placeholder ("Nhấn Bắt đầu..." khi nhàn rỗi / "Đang nghe..." sau khi nhấn Bắt đầu) phản chiếu trạng thái rỗng của cửa sổ chính — chuyển đổi đồng bộ với pill trạng thái đang chạy. Placeholder co giãn theo chiều rộng × chiều cao hiện tại của lớp phủ để vẫn dễ đọc ở mọi kích thước cửa sổ.

Chế độ phụ đề tối giản¶

Hộp kiểm Hiển thị phụ đề tối giản trong Cài đặt → Dịch trực tiếp → Cấu hình lớp phủ ẩn nhãn thời gian và người nói trên lớp phủ nhưng vẫn giữ chúng hiển thị trên cửa sổ chính. Hữu ích khi lớp phủ được chia sẻ với khán giả (chế độ thuyết trình / chia sẻ màn hình) nhưng bạn vẫn muốn xem đầy đủ metadata trong góc làm việc. Tùy chọn này chỉ áp dụng cho lớp phủ — không thay đổi tùy chỉnh "Nhãn người nói" cho cửa sổ chính.

Lưu transcript¶

Nhấp Lưu transcript để xuất phiên thành file .txt với timestamp, người nói, dòng gốc và dòng dịch.

Chọn backend STT¶

Backend	Phù hợp với	Chi phí	Độ trễ
Whisper (local)	Offline, nhạy cảm về quyền riêng tư	Miễn phí	Trung bình (~1 giây sau khi hết câu)
Soniox	Cuộc họp nhiều người nói	Có phí (~$0.005 / phút)	Thấp (thời gian thực)

Lưu ý¶

Chọn microphone

Đầu vào mic luôn dùng thiết bị mặc định của OS — không có bộ chọn trong ứng dụng (sounddevice expose quá nhiều plugin ảo ALSA vô dụng, và OS đã sở hữu UI chọn mic mặc định). Đặt mic ưa thích trong cài đặt âm thanh OS trước khi bắt đầu.

Giới hạn hàng đợi TTS (Backpressure)

Hàng đợi TTS bị giới hạn ở 3 câu gần nhất — audio cũ trong hàng đợi bị bỏ nếu tổng hợp không kịp. Cách này giữ phát giọng gần với phụ đề trên màn hình.

ElevenLabs không có key

Nếu đặt phương thức TTS là ElevenLabs nhưng không cấu hình API key, trang Live tự động fallback về Edge TTS và thông báo fallback ở dòng trạng thái.

Phím tắt¶

Phím tắt	Hành động
`Ctrl+Enter`	Bắt đầu / Dừng
`Ctrl+K`	Xóa log (có xác nhận)
`Ctrl+[` / `Ctrl+]`	Điều chỉnh độ trong suốt overlay