Generuj napisy (STT)¶
Transkrybuj audio lub wideo do napisów z taktowaniem. Wychwytuje mowę i emituje SRT / VTT / ASS / SSA — z opcjonalnym tłumaczeniem w tym samym przebiegu.
Czego potrzebujesz¶
- FFmpeg w
PATHdo dekodowania audio/wideo — zobacz konfigurację FFmpeg. - Backend transkrypcji, jeden z:
- faster-whisper — lokalny, offline, darmowy (domyślny; bez konfiguracji)
- Google Cloud Speech-to-Text — chmurowy, płatny, dokładniejszy przy hałaśliwym audio. Zobacz konfigurację Google Cloud.
- Soniox — chmurowy, płatny, czasu rzeczywistego i diaryzacja mówcy. Zobacz konfigurację Soniox.
Krok po kroku¶
- Kliknij Generuj napisy w pasku bocznym.
- Upuść jeden lub więcej plików audio / wideo (
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv). - Wybierz język źródłowy (język mówiony w audio) — pozostaw
na
Auto-detect, aby Whisper to wymyślił. - Wybierz język docelowy — wybierz
No translationdla zwykłej transkrypcji lub jeden z 45 obsługiwanych języków, aby uzyskać przetłumaczoną transkrypcję w tym samym przebiegu. - Wybierz format wyjściowy (SRT / VTT / ASS / SSA).
- Kliknij Generuj (lub
Ctrl+Enter). - Obserwuj kolejkę. Kliknij Otwórz w wierszu po zakończeniu.
Wybór formatu¶
| Format | Najlepszy do |
|---|---|
| SRT | Uniwersalny — prawie każdy odtwarzacz go obsługuje |
| VTT | Elementy HTML5 <video> <track> |
| ASS / SSA | Karaoke, stylizowane napisy, przepływy fansub |
Cztery formaty round-tripują przez ten sam parser, więc możesz przełączać format wyjściowy przy ponownym tłumaczeniu bez utraty taktowania.
Rozmiar modelu Whisper¶
Przełącz w Settings → Subtitle:
| Model | Rozmiar | Szybkość | Dokładność |
|---|---|---|---|
tiny |
~75 MB | bardzo szybki | niska |
base (domyślny) |
~150 MB | szybki | przyzwoita |
small |
~500 MB | średni | dobry |
medium |
~1.5 GB | wolny | wysoka |
large |
~3 GB | bardzo wolny | najlepszy |
Modele pobierają się przy pierwszym użyciu i są buforowane lokalnie. Na wolnym połączeniu pierwsze uruchomienie wydaje się długie; kolejne są szybkie.
Porównanie metod STT¶
| Backend | Koszt | Online? | Diaryzacja mówcy | Języki |
|---|---|---|---|---|
| Whisper (lokalny) | Darmowy | Nie | Nie | 99 |
| Google Cloud STT | Płatny | Tak | Tak (model latest_long) |
125+ |
| Soniox | Płatny | Tak | Tak (etykiety mówcy per-token) | 60+ |
Przełącz w Settings → Subtitle → STT method.
Wskazówki¶
- Przycisk Stop — przerwij partię w toku. Pliki w kolejce za aktywnym pozostają w kolejce; możesz wznowić później.
- Re-generuj — kliknij prawym przyciskiem wpis Done, aby uruchomić ponownie z innym formatem / językiem / metodą STT.
- Długie audio — Whisper dobrze obsługuje godziny audio;
zaplanuj ~1 minutę przetwarzania na minutę audio dla modelu CPU
base.
Skróty¶
| Skrót | Akcja |
|---|---|
Ctrl+Enter |
Generuj |
Ctrl+O |
Przeglądaj |
Ctrl+F |
Skupienie na wyszukiwaniu historii |