Google Cloud (Vision OCR / Speech-to-Text / Text-to-Speech)¶
Ein einzelner Google-Cloud-API-Schlüssel treibt drei optionale Backends:
- Vision OCR — kostenpflichtige OCR-Engine (1.000 kostenlos / Monat)
- Speech-to-Text v1 — kostenpflichtiges STT (60 Minuten / Monat kostenlos)
- Text-to-Speech v1 — kostenpflichtiges TTS (1 M Zeichen / Monat kostenlos für WaveNet)
Du musst nur die APIs aktivieren, die du tatsächlich verwendest.
API-Schlüssel besorgen¶
- Erstelle ein Google-Cloud-Projekt
- Öffne die API-Bibliothek: https://console.cloud.google.com/apis/library
- Aktiviere eine von:
- Erstelle einen API-Schlüssel: klicke + Create Credentials → API key
- Kopiere den Schlüssel (sieht aus wie
AIza...).
Schlüssel einschränken
Auf der Detailseite des API-Schlüssels, unter API restrictions, beschränke den Schlüssel nur auf die APIs, die du aktiviert hast. So kann ein durchgesickerter Schlüssel keine Rechnungen für Dienste auflaufen lassen, die du nicht verwenden wolltest.
In der App konfigurieren¶
In Einstellungen → Service:
- Füge in Google-Cloud-API-Schlüssel ein → Speichern
Dieser einzelne Schlüssel ist jetzt für alle drei Google-Dienste verfügbar.
Jeden Dienst aktivieren¶
Vision OCR¶
In Einstellungen → OCR → OCR-Methode = Google Cloud OCR.
Das war's — er verwendet denselben Schlüssel aus Service.
Speech-to-Text¶
In Einstellungen → Untertitel → STT-Methode = Google Cloud (für die Untertitel- / Stimme-Seiten) oder Einstellungen → Live → STT-Methode = Google Cloud (für die Live-Seite).
In Einstellungen → Untertitel → Google-STT-Modell, wähle das Erkennungsmodell:
| Modell | Am besten für |
|---|---|
latest_long (Standard) |
Lange Audio-Form (Interviews, Vorlesungen) |
latest_short |
Sprachbefehle, kurze Phrasen |
phone_call |
Telefonie-Audio (8 kHz) |
medical_dictation / medical_conversation |
Audio aus dem medizinischen Bereich |
Text-to-Speech¶
In Einstellungen → Stimme → TTS-Methode = Google Cloud TTS.
Standardmäßig wählt der Server eine Stimme basierend auf Sprache und
Geschlecht — das ist, was die meisten Benutzer brauchen. Das
Anpinnen einer bestimmten Google-Stimme (z. B.
en-US-Chirp3-HD-Charon, vi-VN-Wavenet-A) wird von der Engine
unterstützt, ist aber noch nicht als Einstellungsfeld exponiert; es
kann durch direktes Bearbeiten von voice/google_tts_voice_name in
settings.ini gesetzt werden. Stimm-IDs sind unter
https://cloud.google.com/text-to-speech/docs/voices aufgelistet.
Häufige Fehler¶
| Fehler | Wahrscheinliche Ursache |
|---|---|
AUTH_ERROR |
Falscher / abgelaufener Schlüssel. Erneut in Einstellungen → Service einfügen. |
API not enabled |
Du hast die spezifische API (Vision / Speech / TTS) auf diesem Cloud-Projekt nicht aktiviert. |
QUOTA_ERROR |
Limit der kostenlosen Stufe für diese API erreicht. Warte oder upgrade die Abrechnung. |
INVALID_ARGUMENT_ERROR |
Stimmname existiert nicht in der gewählten Sprache. |
Kostenwächter¶
Warning
Alle drei Google-APIs sind nachträglich bezahlt — sobald du die kostenlose Stufe überschreitest, wirst du ohne Stopp abgerechnet. Lege eine Budget-Warnung auf dem Cloud-Projekt fest, bevor du Arbeit mit hohem Volumen erledigst.