Untertitel erzeugen (STT)¶
Transkribieren Sie Audio oder Video in zeitgesteuerte Untertitel. Erfasst Sprache und gibt SRT / VTT / ASS / SSA aus — mit optionaler Übersetzung im selben Durchlauf.
Was Sie brauchen¶
- FFmpeg im
PATHfür Audio-/Video-Dekodierung — siehe FFmpeg-Setup. - Ein Transkriptions-Backend, eines von:
- faster-whisper — lokal, offline, kostenlos (Standard; keine Einrichtung nötig)
- Google Cloud Speech-to-Text — Cloud, kostenpflichtig, genauer bei verrauschtem Audio. Siehe Google-Cloud-Setup.
- Soniox — Cloud, kostenpflichtig, Echtzeit und Sprecher-Diarisation. Siehe Soniox-Setup.
Schritt-für-Schritt¶
- Klicken Sie in der Seitenleiste auf Untertitel erzeugen.
- Lassen Sie eine oder mehrere Audio-/Videodateien fallen
(
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv). - Wählen Sie die Quellsprache (die im Audio gesprochene Sprache) —
lassen Sie auf
Auto-Erkennung, damit Whisper sie herausfindet. - Wählen Sie eine Zielsprache — wählen Sie
Keine Übersetzungfür ein einfaches Transkript oder eine der 45 unterstützten Sprachen, um das Transkript im selben Durchlauf zu übersetzen. - Wählen Sie das Ausgabeformat (SRT / VTT / ASS / SSA).
- Klicken Sie auf Erzeugen (oder
Strg+Eingabe). - Beobachten Sie die Warteschlange. Öffnen Sie die Zeile, wenn fertig.
Formatauswahl¶
| Format | Geeignet für |
|---|---|
| SRT | Universell — fast jeder Player unterstützt es |
| VTT | HTML5-<video>-<track>-Elemente |
| ASS / SSA | Karaoke, gestylte Untertitel, Fansub-Workflows |
Die vier Formate gehen durch denselben Parser hin und zurück, sodass Sie das Ausgabeformat bei einer Re-Übersetzung ändern können, ohne das Timing zu verlieren.
Whisper-Modellgröße¶
Wechseln in Einstellungen → Untertitel:
| Modell | Größe | Geschwindigkeit | Genauigkeit |
|---|---|---|---|
tiny |
~75 MB | sehr schnell | niedrig |
base (Standard) |
~150 MB | schnell | passabel |
small |
~500 MB | mittel | gut |
medium |
~1,5 GB | langsam | hoch |
large |
~3 GB | sehr langsam | beste |
Modelle werden bei der ersten Verwendung heruntergeladen und lokal gecacht. Bei langsamer Verbindung fühlt sich der erste Lauf lang an; nachfolgende Läufe sind schnell.
STT-Methoden-Vergleich¶
| Backend | Kosten | Online? | Sprecher-Diarisation | Sprachen |
|---|---|---|---|---|
| Whisper (lokal) | Kostenlos | Nein | Nein | 99 |
| Google Cloud STT | Kostenpflichtig | Ja | Ja (latest_long-Modell) |
125+ |
| Soniox | Kostenpflichtig | Ja | Ja (Pro-Token-Sprecher-Labels) | 60+ |
Wechseln in Einstellungen → Untertitel → STT-Methode.
Tipps¶
- Stop-Taste — unterbricht einen laufenden Batch. Dateien hinter dem aktiven bleiben in der Warteschlange; Sie können später fortsetzen.
- Neu erzeugen — Rechtsklick auf einen erledigten Eintrag, um mit einem anderen Format / Sprache / STT-Methode neu zu laufen.
- Lange Audios — Whisper bewältigt stundenlanges Audio gut; ca.
1 Minute Verarbeitung pro Minute Audio auf CPU mit
base-Modell budgetieren.
Tastenkürzel¶
| Kürzel | Aktion |
|---|---|
Strg+Eingabe |
Erzeugen |
Strg+O |
Durchsuchen |
Strg+F |
Fokus auf Verlaufssuche |