Untertitel erzeugen (STT)¶

Transkribieren Sie Audio oder Video in zeitgesteuerte Untertitel. Erfasst Sprache und gibt SRT / VTT / ASS / SSA aus — mit optionaler Übersetzung im selben Durchlauf.

Was Sie brauchen¶

FFmpeg im PATH für Audio-/Video-Dekodierung — siehe FFmpeg-Setup.
Ein Transkriptions-Backend, eines von:
- faster-whisper — lokal, offline, kostenlos (Standard; keine Einrichtung nötig)
- Google Cloud Speech-to-Text — Cloud, kostenpflichtig, genauer bei verrauschtem Audio. Siehe Google-Cloud-Setup.
- Soniox — Cloud, kostenpflichtig, Echtzeit und Sprecher-Diarisation. Siehe Soniox-Setup.

Schritt-für-Schritt¶

Klicken Sie in der Seitenleiste auf Untertitel erzeugen.
Lassen Sie eine oder mehrere Audio-/Videodateien fallen (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv).
Wählen Sie die Quellsprache (die im Audio gesprochene Sprache) — lassen Sie auf Auto-Erkennung, damit Whisper sie herausfindet.
Wählen Sie eine Zielsprache — wählen Sie Keine Übersetzung für ein einfaches Transkript oder eine der 45 unterstützten Sprachen, um das Transkript im selben Durchlauf zu übersetzen.
Wählen Sie das Ausgabeformat (SRT / VTT / ASS / SSA).
Klicken Sie auf Erzeugen (oder Strg+Eingabe).
Beobachten Sie die Warteschlange. Öffnen Sie die Zeile, wenn fertig.

Formatauswahl¶

Format	Geeignet für
SRT	Universell — fast jeder Player unterstützt es
VTT	HTML5-`<video>`-`<track>`-Elemente
ASS / SSA	Karaoke, gestylte Untertitel, Fansub-Workflows

Die vier Formate gehen durch denselben Parser hin und zurück, sodass Sie das Ausgabeformat bei einer Re-Übersetzung ändern können, ohne das Timing zu verlieren.

Whisper-Modellgröße¶

Wechseln in Einstellungen → Untertitel:

Modell	Größe	Geschwindigkeit	Genauigkeit
`tiny`	~75 MB	sehr schnell	niedrig
`base` (Standard)	~150 MB	schnell	passabel
`small`	~500 MB	mittel	gut
`medium`	~1,5 GB	langsam	hoch
`large`	~3 GB	sehr langsam	beste

Modelle werden bei der ersten Verwendung heruntergeladen und lokal gecacht. Bei langsamer Verbindung fühlt sich der erste Lauf lang an; nachfolgende Läufe sind schnell.

STT-Methoden-Vergleich¶

Backend	Kosten	Online?	Sprecher-Diarisation	Sprachen
Whisper (lokal)	Kostenlos	Nein	Nein	99
Google Cloud STT	Kostenpflichtig	Ja	Ja (`latest_long`-Modell)	125+
Soniox	Kostenpflichtig	Ja	Ja (Pro-Token-Sprecher-Labels)	60+

Wechseln in Einstellungen → Untertitel → STT-Methode.

Tipps¶

Stop-Taste — unterbricht einen laufenden Batch. Dateien hinter dem aktiven bleiben in der Warteschlange; Sie können später fortsetzen.
Neu erzeugen — Rechtsklick auf einen erledigten Eintrag, um mit einem anderen Format / Sprache / STT-Methode neu zu laufen.
Lange Audios — Whisper bewältigt stundenlanges Audio gut; ca. 1 Minute Verarbeitung pro Minute Audio auf CPU mit base-Modell budgetieren.

Tastenkürzel¶

Kürzel	Aktion
`Strg+Eingabe`	Erzeugen
`Strg+O`	Durchsuchen
`Strg+F`	Fokus auf Verlaufssuche