자막 생성 (STT)¶
오디오 또는 비디오를 타이밍이 있는 자막으로 전사합니다. 음성을 가져와 SRT / VTT / ASS / SSA를 내보냅니다 — 같은 패스에서 선택적 번역과 함께.
필요한 것¶
- 오디오/비디오 디코딩을 위해
PATH의 FFmpeg — FFmpeg 설정 참조. - 전사 백엔드, 다음 중 하나:
- faster-whisper — 로컬, 오프라인, 무료 (기본; 설정 불필요)
- Google Cloud Speech-to-Text — 클라우드, 유료, 시끄러운 오디오에서 더 정확. Google Cloud 설정 참조.
- Soniox — 클라우드, 유료, 실시간 및 화자 분할. Soniox 설정 참조.
단계¶
- 사이드바에서 자막 생성 클릭.
- 하나 이상의 오디오 / 비디오 파일을 드롭 (
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv). - 소스 언어 선택 (오디오에서 말하는 언어) — Whisper가 알아내도록
자동 감지로 두세요. - 대상 언어 선택 — 일반 전사를 위해
번역 없음을 선택하거나, 전사를 같은 패스에서 번역하기 위해 지원되는 45개 언어 중 하나를 선택. - 출력 형식 선택 (SRT / VTT / ASS / SSA).
- 생성 클릭 (또는
Ctrl+Enter). - 큐를 지켜보세요. 완료되면 행에서 열기 클릭.
형식 선택¶
| 형식 | 최적 |
|---|---|
| SRT | 보편적 — 거의 모든 플레이어가 지원 |
| VTT | HTML5 <video> <track> 요소 |
| ASS / SSA | 가라오케, 스타일 자막, fansub 워크플로 |
네 가지 형식은 동일한 파서를 round-trip하므로 다시 번역할 때 타이밍을 잃지 않고 출력 형식을 전환할 수 있습니다.
Whisper 모델 크기¶
설정 → 자막에서 전환:
| 모델 | 크기 | 속도 | 정확도 |
|---|---|---|---|
tiny |
~75 MB | 매우 빠름 | 낮음 |
base (기본) |
~150 MB | 빠름 | 양호 |
small |
~500 MB | 중간 | 좋음 |
medium |
~1.5 GB | 느림 | 높음 |
large |
~3 GB | 매우 느림 | 최고 |
모델은 첫 사용 시 다운로드되고 로컬에 캐시됩니다. 느린 연결에서는 첫 실행이 길게 느껴집니다; 이후 실행은 빠릅니다.
STT 방법 비교¶
| 백엔드 | 비용 | 온라인? | 화자 분할 | 언어 |
|---|---|---|---|---|
| Whisper (로컬) | 무료 | 아니오 | 아니오 | 99 |
| Google Cloud STT | 유료 | 예 | 예 (latest_long 모델) |
125+ |
| Soniox | 유료 | 예 | 예 (토큰당 화자 레이블) | 60+ |
설정 → 자막 → STT 방법에서 전환.
팁¶
- 중지 버튼 — 진행 중인 배치를 중단합니다. 활성 뒤에 큐에 있는 파일은 큐에 남습니다; 나중에 재개할 수 있습니다.
- 재생성 — 다른 형식 / 언어 / STT 방법으로 다시 실행하려면 Done 항목을 마우스 오른쪽 버튼으로 클릭.
- 긴 오디오 — Whisper는 시간 단위 오디오를 잘 처리합니다; CPU에서
base모델로 오디오 분당 약 1분의 처리 시간을 예산하세요.
단축키¶
| 단축키 | 동작 |
|---|---|
Ctrl+Enter |
생성 |
Ctrl+O |
찾아보기 |
Ctrl+F |
히스토리 검색에 포커스 |