라이브 번역¶
마이크, 시스템 오디오 또는 둘 모두에서 실시간 자막 및 번역 — 옵션으로 제공되는 항상 위(Always-on-top) 오버레이 창을 통해 시청 중인 화면 위에 실시간으로 자막을 띄울 수 있습니다.
활용 사례¶
- 라이브 회의 자막 — 번역 봇으로 참여하지 않고 다른 언어로 Zoom / Meet / Teams 통화를 자막 처리.
- 실시간 언어 학습 — 모국어를 번역 트랙으로 사용하여 외국어 콘텐츠(영화, 팟캐스트, 강의)를 자막 처리.
- 시스템 전체 자막 — 시스템 오디오를 캡처하여 YouTube / Netflix / 스피커에서 재생되는 모든 것을 자막 처리.
사전 준비사항¶
PATH의 FFmpeg — FFmpeg 설정 참조.-
STT 백엔드, 다음 중 하나:
- faster-whisper — 로컬, 오프라인, 무료, 기본
- Soniox — 클라우드, 유료, 실시간 화자 분할. Soniox 설정 참조.
-
시스템 오디오 캡처의 경우 OS별 올바른 백엔드가 자동 선택됩니다: Linux는
parec(PulseAudio / PipeWire) 사용, Windows는 네이티브 WASAPI 루프백 사용(대부분의 경우 추가 소프트웨어 없음), macOS는 가상 루프백 장치(BlackHole / Loopback / 등)에 대해ffmpeg -f avfoundation사용. 누락된 것이 있으면 클릭 가능한 설치 링크가 있는 인라인 경고 배너가 표시됩니다. 전체 OS별 설치 지침은 설정 → 시스템 오디오 참조.
단계별¶
- 사이드바에서 라이브 번역 클릭.
-
설정 → Live에서 한 번 구성:
- 소스 언어(말하는 언어)
- 대상 언어(또는 전사만 할 경우 비워둠)
- 오디오 소스: 마이크 / 시스템 오디오 / 둘 다
- STT 방법: Whisper / Soniox
-
Live 페이지로 돌아가서 시작 클릭(
Ctrl+Enter). - 전사가 메인 창을 카드별로 채웁니다. 떠 있는 오버레이 창도 자막을 표시합니다(원하는 곳으로 드래그).
- 세션을 종료하려면 중지 클릭.
자막 표시 방식¶
도구 모음에서 레이아웃 선택:
- 위아래로 나란히 보기 — 원본 + 번역, 위아래로
- 좌우로 나란히 보기 — 원본 왼쪽, 번역 오른쪽
- 원본만 / 번역만
도구 모음 버튼은 한눈에 보이는 상태를 위해 ON / OFF
접미사를 사용 — 예: TTS ON, TTS OFF, Timestamps ON,
Overlay OFF.
시계 아이콘으로 타임스탬프를 켜기/끄기. 스피커 아이콘으로 번역된 행의 TTS 재생을 켜기/끄기. 설정 → 음성 → TTS 방법에 선택한 엔진이 적용됩니다 — Edge TTS(기본), ElevenLabs, Google Cloud TTS, Gemini TTS, 또는 Piper TTS(완전 오프라인). Piper 선택 시, 누락된 언어별 음성은 스트림 중간에 조용히 Edge TTS로 폴백됩니다 — 다운로드 대화상자로 라이브 흐름을 차단하는 것이 폴백보다 더 나쁘기 때문에 이 페이지에는 모달 사전 검사가 없습니다.
오버레이 창¶
드래그 가능하고 크기 조절 가능하며 항상 위에 있는 도구 창. 단축키:
| 단축키 | 동작 |
|---|---|
Ctrl+[ / Ctrl+] |
불투명도 감소 / 증가 |
Ctrl+화살표 |
오버레이 이동 |
Ctrl+0 / Ctrl+9 |
확대 / 축소 |
위치, 크기, 불투명도 및 글꼴 크기는 세션 간 유지됩니다.
설정과의 라이브 동기화¶
글꼴 크기와 불투명도 컨트롤은 양방향으로 작동합니다.
설정 → 실시간 번역 → 오버레이 구성에서 글꼴 크기 또는
불투명도 슬라이더를 끌면 열려 있는 오버레이가 실시간으로
업데이트되며, 반대로 오버레이 안에서 + / - / Ctrl+[ /
Ctrl+]을 누르면 설정의 슬라이더가 업데이트됩니다. 오버레이
를 다시 시작할 필요가 없습니다.
빈 상태 자리 표시자¶
오디오가 캡처되기 전에 오버레이는 자리 표시자를 표시합니다 ("시작을 누르세요..." 유휴 / "듣는 중..." 시작 클릭 후). 이 는 메인 창의 빈 상태를 반영하며 실행 중인 상태 표시와 동기 화되어 전환됩니다. 자리 표시자는 오버레이의 현재 너비 × 높 이에 맞춰 크기가 조정되어 모든 창 크기에서 읽기 쉽게 유지됩 니다.
간단한 자막 모드¶
설정 → 실시간 번역 → 오버레이 구성의 간단한 자막 표시 체크박스는 메인 창에는 표시되도록 유지하면서 오버레이의 타임 스탬프와 화자 칩을 숨깁니다. 오버레이를 청중과 공유할 때(프 레젠터 모드 / 화면 공유) 작업 보기에 전체 메타데이터를 유지 하려는 경우에 유용합니다. 이 전환은 오버레이 전용입니다 — 메인 창의 "화자 레이블" 환경설정은 변경하지 않습니다.
전사 저장¶
전사 저장을 클릭하여 타임스탬프, 화자, 원본 행 및 번역된 행이
있는 .txt 파일로 세션을 내보냅니다.
STT 백엔드 선택¶
| 백엔드 | 최적 | 비용 | 지연 시간 |
|---|---|---|---|
| Whisper(로컬) | 오프라인, 프라이버시 민감 | 무료 | 중간(문장 끝 후 약 1초) |
| Soniox | 다중 화자 회의 | 유료(약 $0.005 / 분) | 낮음(실시간) |
주의사항¶
마이크 선택
마이크 입력은 항상 OS 기본 장치를 사용 — 앱 내 선택기 없음 (sounddevice는 유용하기에는 너무 많은 가상 ALSA 플러그인을 노출 하고, OS가 이미 기본 마이크 UI를 소유). 시작 전 OS 사운드 설정 에서 선호하는 마이크를 설정하세요.
TTS 백프레셔
TTS 큐는 가장 최근 3개 문장으로 제한됨 — 합성이 뒤처지면 큐의 오래된 오디오는 삭제됩니다. 이는 음성 재생을 화면 자막 가까이 유지합니다.
키 없는 ElevenLabs
TTS 방법을 ElevenLabs로 설정했지만 API 키가 구성되지 않은 경우, Live 페이지는 자동으로 Edge TTS로 폴백하고 상태 레이블에서 폴백을 알립니다.
단축키¶
| 단축키 | 동작 |
|---|---|
Ctrl+Enter |
시작 / 중지 |
Ctrl+K |
로그 지우기(확인 포함) |
Ctrl+[ / Ctrl+] |
오버레이 불투명도 조정 |