Live-Übersetzung¶

Echtzeit-Untertitel und -Übersetzungen vom Mikrofon, Systemaudio oder beidem — mit einem optionalen Overlay-Fenster, das immer im Vordergrund bleibt, damit die Untertitel über dem liegen, was du gerade ansiehst.

Wofür du es nutzen kannst¶

Live-Meeting-Untertitel — untertitele einen Zoom- / Meet- / Teams-Anruf in einer anderen Sprache, ohne als Übersetzer-Bot beizutreten.
Echtzeit-Sprachenlernen — untertitele fremdsprachige Inhalte (Filme, Podcasts, Vorlesungen) mit deiner Muttersprache als Übersetzungsspur.
Systemweite Untertitel — erfasse Systemaudio, um YouTube / Netflix / alles, was über deine Lautsprecher läuft, zu untertiteln.

Was du brauchst¶

FFmpeg im PATH — siehe FFmpeg-Setup.
Ein STT-Backend, eines von:
- faster-whisper — lokal, offline, kostenlos, Standard
- Soniox — Cloud, kostenpflichtig, Echtzeit-Sprecher-Diarisierung. Siehe Soniox-Setup.
Für die Systemaudio-Erfassung wird das richtige Backend pro OS automatisch ausgewählt: Linux nutzt parec (PulseAudio / PipeWire), Windows nutzt natives WASAPI-Loopback (in den meisten Fällen keine zusätzliche Software), macOS nutzt ffmpeg -f avfoundation mit einem virtuellen Loopback-Gerät (BlackHole / Loopback / etc.). Ein Inline- Warnbanner mit anklickbaren Installationslinks erscheint, falls etwas fehlt. Siehe Setup → Systemaudio für vollständige Installationsanweisungen pro OS.

Schritt für Schritt¶

Klicke in der Seitenleiste auf Live-Übersetzung.
Konfiguriere einmalig unter Einstellungen → Live:
- Quellsprache (gesprochene Sprache)
- Zielsprache (oder leer lassen für reine Transkription)
- Audioquelle: Mikrofon / Systemaudio / Beide
- STT-Methode: Whisper / Soniox
Zurück auf der Live-Seite klicke auf Start (Ctrl+Enter).
Die Transkription füllt den Hauptbereich Karte für Karte. Das schwebende Overlay-Fenster zeigt ebenfalls Untertitel (zieh es dahin, wo du es haben willst).
Klicke auf Stop, um die Sitzung zu beenden.

Die Transkriptionsansicht¶

Wähle ein Layout in der Symbolleiste:

Beide gestapelt — Original + Übersetzung, eines über dem anderen
Beide nebeneinander — Original links, Übersetzung rechts
Nur Original / Nur Übersetzung

Die Symbolleisten-Schaltflächen verwenden AN / AUS-Suffixe für den Status auf einen Blick — z. B. TTS AN, TTS AUS, Zeitstempel AN, Overlay AUS.

Schalte Zeitstempel mit dem Uhr-Icon ein/aus. Schalte die TTS-Wiedergabe der übersetzten Zeilen mit dem Lautsprecher-Icon ein/aus. Folgt deiner Auswahl unter Einstellungen → Stimme → TTS-Methode — Edge TTS (Standard), ElevenLabs, Google Cloud TTS, Gemini TTS oder Piper TTS (vollständig offline). Mit ausgewähltem Piper fallen fehlende Stimmen pro Sprache stillschweigend auf Edge TTS zurück — auf dieser Seite gibt es keinen modalen Pre-Flight, da das Blockieren des Live-Flusses durch einen Download-Dialog schlimmer wäre als das Fallback.

Das Overlay-Fenster¶

Ein ziehbares, größenveränderbares, immer-im-Vordergrund Werkzeugfenster. Tastenkürzel:

Tastenkürzel	Aktion
`Ctrl+[` / `Ctrl+]`	Deckkraft verringern / erhöhen
`Ctrl+Pfeil`	Overlay verschieben
`Ctrl+0` / `Ctrl+9`	Vergrößern / verkleinern

Position, Größe, Deckkraft und Schriftgröße bleiben zwischen Sitzungen erhalten.

Echtzeit-Synchronisierung mit Einstellungen¶

Schriftgröße und Deckkraft funktionieren in beide Richtungen: Ziehen Sie den Regler Schriftgröße oder Deckkraft unter Einstellungen → Live → Overlay-Konfiguration und das geöffnete Overlay aktualisiert sich in Echtzeit. Umgekehrt aktualisieren die Tasten + / - / Ctrl+[ / Ctrl+] innerhalb des Overlays die Regler in den Einstellungen. Kein Neuöffnen des Overlays nötig.

Platzhalter für leeren Zustand¶

Vor der Audioaufnahme zeigt das Overlay einen Platzhalter ("Drücken Sie Start..." im Leerlauf / "Höre zu..." nach Start) der den Leerzustand des Hauptfensters spiegelt — der Wechsel erfolgt synchron zur laufenden Statusanzeige. Der Platzhalter skaliert mit der aktuellen Breite × Höhe des Overlays und bleibt in jeder Fenstergröße lesbar.

Minimale-Untertitel-Modus¶

Das Kontrollkästchen Minimale Untertitel anzeigen unter Einstellungen → Live → Overlay-Konfiguration verbirgt die Zeitstempel- und Sprecher-Chips auf dem Overlay, während sie im Hauptfenster sichtbar bleiben. Nützlich, wenn das Overlay mit einem Publikum geteilt wird (Präsentationsmodus / Bildschirm freigabe), Sie aber in Ihrer Arbeitsansicht volle Metadaten behalten möchten. Die Umschaltung gilt nur für das Overlay — sie ändert nicht Ihre "Sprecherbeschriftungen"-Einstellung für das Hauptfenster.

Transkription speichern¶

Klicke auf Transkription speichern, um die Sitzung in eine .txt-Datei mit Zeitstempeln, Sprechern, Originalzeilen und übersetzten Zeilen zu exportieren.

Auswahl eines STT-Backends¶

Backend	Am besten für	Kosten	Latenz
Whisper (lokal)	Offline, datenschutzsensitiv	Kostenlos	Mittel (~1 s nach Satzende)
Soniox	Meetings mit mehreren Sprechern	Kostenpflichtig (~0,005 $ / Min.)	Niedrig (Echtzeit)

Hinweise¶

Mikrofonauswahl

Der Mikrofoneingang nutzt immer das Standardgerät des OS — es gibt keine In-App-Auswahl (sounddevice zeigt zu viele virtuelle ALSA-Plugins, um nützlich zu sein, und das OS besitzt bereits die UI für das Standardmikrofon). Stelle dein bevorzugtes Mikrofon in den Soundeinstellungen deines OS ein, bevor du startest.

TTS-Backpressure

Die TTS-Warteschlange ist auf die letzten 3 Sätze begrenzt — älteres Audio in der Warteschlange wird verworfen, wenn die Synthese hinterherhinkt. So bleibt die gesprochene Wiedergabe nahe an den Untertiteln auf dem Bildschirm.

ElevenLabs ohne Schlüssel

Wenn du die TTS-Methode auf ElevenLabs gesetzt hast, aber kein API-Schlüssel konfiguriert ist, fällt die Live-Seite automatisch auf Edge TTS zurück und kündigt das Fallback im Statuslabel an.

Tastenkürzel¶

Tastenkürzel	Aktion
`Ctrl+Enter`	Start / Stop
`Ctrl+K`	Log löschen (mit Bestätigung)
`Ctrl+[` / `Ctrl+]`	Overlay-Deckkraft anpassen