자막 생성 (STT)¶

오디오 또는 비디오를 타이밍이 있는 자막으로 전사합니다. 음성을 가져와 SRT / VTT / ASS / SSA를 내보냅니다 — 같은 패스에서 선택적 번역과 함께.

필요한 것¶

오디오/비디오 디코딩을 위해 PATH의 FFmpeg — FFmpeg 설정 참조.
전사 백엔드, 다음 중 하나:
- faster-whisper — 로컬, 오프라인, 무료 (기본; 설정 불필요)
- Google Cloud Speech-to-Text — 클라우드, 유료, 시끄러운 오디오에서 더 정확. Google Cloud 설정 참조.
- Soniox — 클라우드, 유료, 실시간 및 화자 분할. Soniox 설정 참조.

사이드바에서 자막 생성 클릭.
하나 이상의 오디오 / 비디오 파일을 드롭 (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv).
소스 언어 선택 (오디오에서 말하는 언어) — Whisper가 알아내도록 자동 감지로 두세요.
대상 언어 선택 — 일반 전사를 위해 번역 없음을 선택하거나, 전사를 같은 패스에서 번역하기 위해 지원되는 45개 언어 중 하나를 선택.
출력 형식 선택 (SRT / VTT / ASS / SSA).
생성 클릭 (또는 Ctrl+Enter).
큐를 지켜보세요. 완료되면 행에서 열기 클릭.

네 가지 형식은 동일한 파서를 round-trip하므로 다시 번역할 때 타이밍을 잃지 않고 출력 형식을 전환할 수 있습니다.

설정 → 자막에서 전환:

모델은 첫 사용 시 다운로드되고 로컬에 캐시됩니다. 느린 연결에서는 첫 실행이 길게 느껴집니다; 이후 실행은 빠릅니다.

백엔드	비용	온라인?	화자 분할	언어
Whisper (로컬)	무료	아니오	아니오	99
Google Cloud STT	유료	예	예 (`latest_long` 모델)	125+
Soniox	유료	예	예 (토큰당 화자 레이블)	60+

설정 → 자막 → STT 방법에서 전환.

중지 버튼 — 진행 중인 배치를 중단합니다. 활성 뒤에 큐에 있는 파일은 큐에 남습니다; 나중에 재개할 수 있습니다.
재생성 — 다른 형식 / 언어 / STT 방법으로 다시 실행하려면 Done 항목을 마우스 오른쪽 버튼으로 클릭.
긴 오디오 — Whisper는 시간 단위 오디오를 잘 처리합니다; CPU에서 base 모델로 오디오 분당 약 1분의 처리 시간을 예산하세요.