Google Cloud (Vision OCR / Speech-to-Text / Text-to-Speech)¶
Pojedynczy klucz Google Cloud API zasila trzy opcjonalne backendy:
- Vision OCR — płatny silnik OCR (1000 darmowych / miesiąc)
- Speech-to-Text v1 — płatny STT (60 minut / miesiąc darmowych)
- Text-to-Speech v1 — płatny TTS (1 M znaków / miesiąc darmowych dla WaveNet)
Musisz włączyć tylko APIs, których faktycznie używasz.
Pobierz klucz API¶
- Utwórz projekt Google Cloud
- Otwórz bibliotekę API: https://console.cloud.google.com/apis/library
- Włącz dowolne z:
- Utwórz klucz API: kliknij + Create Credentials → API key
- Skopiuj klucz (wygląda jak
AIza...).
Ogranicz klucz
Na stronie szczegółów klucza API, w sekcji API restrictions, ogranicz klucz tylko do APIs, które włączyłeś. W ten sposób wyciekły klucz nie może gromadzić rachunków za usługi, których nie zamierzałeś używać.
Konfiguruj w aplikacji¶
W Settings → Service:
- Wklej w Google Cloud API key → Save
Ten pojedynczy klucz jest teraz dostępny dla wszystkich trzech usług Google.
Włącz każdą usługę¶
Vision OCR¶
W Settings → OCR → OCR method = Google Cloud OCR.
To wszystko — będzie używał tego samego klucza z Service.
Speech-to-Text¶
W Settings → Subtitle → STT method = Google Cloud (dla stron Subtitle / Voice) lub Settings → Live → STT method = Google Cloud (dla strony Live).
W Settings → Subtitle → Google STT model, wybierz model rozpoznawania:
| Model | Najlepszy dla |
|---|---|
latest_long (domyślny) |
Długie audio (wywiady, wykłady) |
latest_short |
Komendy głosowe, krótkie frazy |
phone_call |
Audio telefoniczne (8 kHz) |
medical_dictation / medical_conversation |
Audio medyczne |
Text-to-Speech¶
W Settings → Voice → TTS method = Google Cloud TTS.
Domyślnie serwer wybiera głos na podstawie języka i płci — to,
czego potrzebuje większość użytkowników. Przypinanie konkretnego
głosu Google (np. en-US-Chirp3-HD-Charon, vi-VN-Wavenet-A) jest
obsługiwane przez silnik, ale nie jest jeszcze eksponowane jako
pole Settings; można je ustawić, edytując voice/google_tts_voice_name
bezpośrednio w settings.ini. ID głosów są wymienione na
https://cloud.google.com/text-to-speech/docs/voices.
Częste błędy¶
| Error | Prawdopodobna przyczyna |
|---|---|
AUTH_ERROR |
Zły / wygasły klucz. Wklej ponownie w Settings → Service. |
API not enabled |
Nie włączyłeś konkretnego API (Vision / Speech / TTS) na tym projekcie Cloud. |
QUOTA_ERROR |
Osiągnięto limit poziomu darmowego dla tego API. Poczekaj lub zaktualizuj rozliczenia. |
INVALID_ARGUMENT_ERROR |
Nazwa głosu nie istnieje w wybranym języku. |
Ochrona kosztów¶
Warning
Wszystkie trzy APIs Google są post-paid — gdy przekroczysz poziom darmowy, zaczynasz być rozliczany bez przerwy. Ustaw alert budżetu na projekcie Cloud przed wykonaniem pracy o dużej objętości.