콘텐츠로 이동

자막 생성 (STT)

오디오 또는 비디오를 타이밍이 있는 자막으로 전사합니다. 음성을 가져와 SRT / VTT / ASS / SSA를 내보냅니다 — 같은 패스에서 선택적 번역과 함께.

필요한 것

  • 오디오/비디오 디코딩을 위해 PATHFFmpegFFmpeg 설정 참조.
  • 전사 백엔드, 다음 중 하나:
    • faster-whisper — 로컬, 오프라인, 무료 (기본; 설정 불필요)
    • Google Cloud Speech-to-Text — 클라우드, 유료, 시끄러운 오디오에서 더 정확. Google Cloud 설정 참조.
    • Soniox — 클라우드, 유료, 실시간 및 화자 분할. Soniox 설정 참조.

단계

  1. 사이드바에서 자막 생성 클릭.
  2. 하나 이상의 오디오 / 비디오 파일을 드롭 (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv).
  3. 소스 언어 선택 (오디오에서 말하는 언어) — Whisper가 알아내도록 자동 감지로 두세요.
  4. 대상 언어 선택 — 일반 전사를 위해 번역 없음을 선택하거나, 전사를 같은 패스에서 번역하기 위해 지원되는 45개 언어 중 하나를 선택.
  5. 출력 형식 선택 (SRT / VTT / ASS / SSA).
  6. 생성 클릭 (또는 Ctrl+Enter).
  7. 큐를 지켜보세요. 완료되면 행에서 열기 클릭.

형식 선택

형식 최적
SRT 보편적 — 거의 모든 플레이어가 지원
VTT HTML5 <video> <track> 요소
ASS / SSA 가라오케, 스타일 자막, fansub 워크플로

네 가지 형식은 동일한 파서를 round-trip하므로 다시 번역할 때 타이밍을 잃지 않고 출력 형식을 전환할 수 있습니다.

Whisper 모델 크기

설정 → 자막에서 전환:

모델 크기 속도 정확도
tiny ~75 MB 매우 빠름 낮음
base (기본) ~150 MB 빠름 양호
small ~500 MB 중간 좋음
medium ~1.5 GB 느림 높음
large ~3 GB 매우 느림 최고

모델은 첫 사용 시 다운로드되고 로컬에 캐시됩니다. 느린 연결에서는 첫 실행이 길게 느껴집니다; 이후 실행은 빠릅니다.

STT 방법 비교

백엔드 비용 온라인? 화자 분할 언어
Whisper (로컬) 무료 아니오 아니오 99
Google Cloud STT 유료 예 (latest_long 모델) 125+
Soniox 유료 예 (토큰당 화자 레이블) 60+

설정 → 자막 → STT 방법에서 전환.

  • 중지 버튼 — 진행 중인 배치를 중단합니다. 활성 뒤에 큐에 있는 파일은 큐에 남습니다; 나중에 재개할 수 있습니다.
  • 재생성 — 다른 형식 / 언어 / STT 방법으로 다시 실행하려면 Done 항목을 마우스 오른쪽 버튼으로 클릭.
  • 긴 오디오 — Whisper는 시간 단위 오디오를 잘 처리합니다; CPU에서 base 모델로 오디오 분당 약 1분의 처리 시간을 예산하세요.

단축키

단축키 동작
Ctrl+Enter 생성
Ctrl+O 찾아보기
Ctrl+F 히스토리 검색에 포커스