콘텐츠로 이동

음성 생성 (TTS)

자막 파일(타이밍 포함) 또는 임의 텍스트를 MP3 / WAV 오디오로 합성. 다섯 가지 TTS 백엔드: Edge TTS(무료), ElevenLabs(고품질), Google Cloud TTS, Gemini TTS(무료 티어), 그리고 Piper TTS(오프라인).

필요한 것

  • PATHFFmpegFFmpeg 설정 참조.
  • TTS 백엔드, 다음 중 하나:
    • Edge TTS — 무료, 키 없음, 기본. Microsoft Edge의 클라우드 음성을 사용.
    • ElevenLabs — 유료, 최고 품질. ElevenLabs 설정 참조.
    • Google Cloud TTS — 유료, 매우 좋음. Google Cloud 설정 참조.
    • Gemini TTS — 무료 티어, 자연스러운 사전 구축 음성. LLM 탭의 기존 Gemini API 키를 재사용 — 추가 설정 없음.
    • Piper TTS — 완전히 오프라인 신경망 TTS. API 키 없음, 네트워크 호출 없음 — 음성은 설정 → 음성 → Piper TTS → 지금 음성 다운로드를 통해 한 번 다운로드되는 ~25–60 MB ONNX 파일입니다. 앱의 45개 언어 중 32개가 오늘날 Piper 음성을 가지고 있습니다; Piper 적용 범위가 없는 언어는 합성 시 조용히 Edge TTS로 폴백합니다.

단계별

  1. 사이드바에서 음성 생성 클릭.
  2. 하나 이상의 .srt / .vtt / .ass / .ssa 자막 파일 드롭.
  3. 언어 선택(가능한 경우 자막 파일 이름에서 자동 감지 — 예: _translated_en_ko.srt는 한국어로 감지).
  4. 음성 성별 선택 — 여성 또는 남성.
  5. 출력 형식 선택 — .mp3(기본) 또는 .wav.
  6. 생성 클릭(또는 Ctrl+Enter).
  7. 완료되면 행에서 열기 — 기본 오디오 앱에서 재생됩니다.

출력

각 자막의 타임스탬프에 음성 트랙이 배치된 단일 오디오 파일을 얻습니다. 무음 간격이 큐 사이의 시간을 채우므로 오디오는 원래 타이밍과 동기화된 상태로 유지됩니다.

TTS 백엔드 선택

백엔드 비용 음성 메모
Edge TTS 무료 수백 개, 모든 주요 언어 기본. 설정 없음.
ElevenLabs 유료(~$5/월 입문 티어) 프리미엄 신경망 음성, 음성 클로닝 최고 품질. 음성 ID는 설정 → 서비스에서 설정.
Google Cloud TTS 유료(~$4/M 문자; 월 1 M 무료) 50개 이상 언어의 WaveNet / Studio 음성 유럽 언어를 위한 강력한 WaveNet 음성. 기본적으로 서버는 언어 + 성별을 기반으로 음성을 선택합니다.
Gemini TTS 무료 티어(Developer API 할당량 적용) 24개 이상 언어의 자연스러운 사전 구축 음성 — Kore(여성 기본) / Puck(남성 기본) LLM 탭의 Gemini API 키를 재사용. 호출당 출력은 ~30초로 제한; 긴 텍스트는 문장 경계에서 자동으로 분할.
Piper TTS 무료, 오프라인 앱의 45개 언어 중 32개의 신경망 음성 키 없음, 네트워크 없음. 언어별 음성은 설정 → 음성 → Piper TTS → 지금 음성 다운로드에서 주문형으로 다운로드(각 ~25–60 MB). 사전 검사는 작업이 시작되기 전에 누락된 음성을 잡습니다.

설정 → 음성 → TTS 방법에서 전환.

Piper TTS 세부 사항

Piper는 앱에서 유일하게 완전히 오프라인인 TTS 백엔드입니다. 알아야 할 몇 가지 사항:

  • 음성 라이브러리 대화상자설정 → 음성 → Piper TTS → 지금 음성 다운로드를 통해 엽니다. 각 언어 행에는 여성 음성 및 / 또는 남성 음성 다운로드 버튼이 표시됩니다(일부 언어는 단일 성별). 음성은 rhasspy/piper-voices HuggingFace 카탈로그에서 옵니다.
  • 적용 범위 — 앱의 45개 언어 중 32개가 Piper 음성을 가지고 있습니다. 적용 범위가 없는 13개(벨라루스어, 벵골어, 중국어 (번체), 크로아티아어, 에스토니아어, 히브리어, 일본어, 크메르어, 한국어, 리투아니아어, 말레이어, 몽골어, 태국어)는 합성 시 조용히 Edge TTS로 폴백하므로 합성은 누락된 음성에서 절대 강하게 실패 하지 않습니다.
  • 성별 해결여성을 선택하면 엔진은 먼저 해당 언어의 여성 음성을 시도합니다; 남성 음성만 존재하는 경우 대신 그것을 사용합니다(반대도 마찬가지). INFO 레벨에서 기록됩니다.
  • 사전 검사 게이트 — 음성 실행이 시작되기 전에 페이지는 언어별 Piper 음성이 디스크에 있는지 확인합니다. 누락된 경우 큐를 잃지 않고 다운로드할 수 있도록 음성 라이브러리로 직접 안내하는 설정 열기 버튼이 있는 모달 대화상자를 얻습니다.

Gemini TTS 세부 사항

Gemini TTS는 Developer API를 통해 gemini-2.5-flash-preview-tts를 사용합니다. 알아야 할 몇 가지 사항:

  • 음성 선택은 오늘날 성별별 — 여성은 Kore에 매핑, 남성은 Puck에. 둘 다 너무 캐릭터처럼 들리지 않으면서 언어 전반에 걸쳐 작동하는 명확하고 중립적인 음성입니다.
  • 출력 길이 상한 — 각 Gemini API 호출은 최대 ~30초의 음성을 반환합니다. 앱은 입력 텍스트를 문장 경계에서 _GEMINI_TTS_MAX_BYTES(~2000바이트 ≈ 30초) 아래로 분할한 다음 FFmpeg를 통해 청크를 연결합니다. 일반 자막 텍스트에서 잘림을 만나지 않을 것입니다.
  • 오디오 형식 — Gemini는 24 kHz 모노 s16le에서 원시 PCM을 방출합니다; 앱은 청크별로 MP3(또는 선택한 경우 WAV)로 트랜스코딩하여 최종 파일이 선택한 출력 형식과 일치하도록 합니다.
  • Vertex AI는 아직 TTS에 대해 지원되지 않음 — LLM 탭이 Vertex용 으로 구성된 경우에도 Gemini TTS는 여전히 Developer API 키가 필요합니다. 누락된 경우 앱은 사전에 AUTH_ERROR를 발생시킵니다.

ElevenLabs 모델

세 가지 모델이 노출됨:

모델 지연 시간 품질 사용 대상
eleven_multilingual_v2(기본) 중간 높음 일반 TTS
eleven_v3 중간 최고 스튜디오 / 프로덕션
eleven_flash_v2_5 낮음 양호 실시간 / Live 모드

설정 → 음성 → ElevenLabs 모델에서 구성.

재생성

행을 우클릭 → 재생성하여 번역을 다시 실행하지 않고 음성 성별 / TTS 방법 / 형식을 교환합니다.

사전 검사

페이지는 시작하기 전에 ElevenLabs API 키(선택 시)와 FFmpeg 가용성을 검증합니다. 누락된 것이 있으면 친근한 대화상자를 보게 됩니다.

Stop은 원자적

합성 중에 Stop을 누르면 출력 디렉토리에 반쯤 작성된 MP3가 생기지 않습니다 — 파일은 먼저 임시 위치에 작성된 다음 성공 시에만 제자리로 이동됩니다.

단축키

단축키 동작
Ctrl+Enter 생성
Ctrl+O 찾아보기
Ctrl+F 기록 검색에 포커스