Google Cloud(Vision OCR / Speech-to-Text / Text-to-Speech)¶
1 つの Google Cloud API キーで 3 つのオプションバックエンドを駆動:
- Vision OCR — 有料 OCR エンジン(月 1,000 回無料)
- Speech-to-Text v1 — 有料 STT(月 60 分無料)
- Text-to-Speech v1 — 有料 TTS(WaveNet で月 1 M 文字無料)
実際に使用する API のみを有効化する必要があります。
API キーを取得¶
- Google Cloud プロジェクトを作成
- API ライブラリを開く:https://console.cloud.google.com/apis/library
- いずれかを有効化:
- API キーを作成: + Create Credentials → API key をクリック
- キーをコピー(
AIza...のように見える)。
キーを制限
API キーの詳細ページで、API restrictions の下で、有効化した API のみにキーを制限します。そうすれば、漏洩したキーが、使用する 意図がなかったサービスで請求を蓄積することはできません。
アプリで構成¶
設定 → サービスで:
- Google Cloud API キー に貼り付け → 保存
この 1 つのキーが今、3 つのすべての Google サービスで利用可能になり ました。
各サービスを有効化¶
Vision OCR¶
設定 → OCR → OCR メソッド = Google Cloud OCRで。
これだけです — サービスからの同じキーを使用します。
Speech-to-Text¶
設定 → 字幕 → STT メソッド = Google Cloud(字幕 / 音声ページ用) または設定 → Live → STT メソッド = Google Cloud(Live ページ用) で。
設定 → 字幕 → Google STT モデルで、認識モデルを選択:
| モデル | 最適 |
|---|---|
latest_long(デフォルト) |
長尺オーディオ(インタビュー、講義) |
latest_short |
音声コマンド、短いフレーズ |
phone_call |
電話オーディオ(8 kHz) |
medical_dictation / medical_conversation |
医療ドメインのオーディオ |
Text-to-Speech¶
設定 → 音声 → TTS メソッド = Google Cloud TTSで。
デフォルトでは、サーバーが言語と性別に基づいて音声を選択します — それ
がほとんどのユーザーが必要とするすべてです。特定の Google 音声を
固定すること(例:en-US-Chirp3-HD-Charon、vi-VN-Wavenet-A)は
エンジンによってサポートされていますが、まだ設定フィールドとして
公開されていません;voice/google_tts_voice_name を settings.ini
で直接編集して設定できます。音声 ID は
https://cloud.google.com/text-to-speech/docs/voices にリスト
されています。
よくあるエラー¶
| エラー | 考えられる原因 |
|---|---|
AUTH_ERROR |
間違った / 期限切れのキー。設定 → サービスで再貼り付け。 |
API not enabled |
この Cloud プロジェクトで特定の API(Vision / Speech / TTS)を有効化していません。 |
QUOTA_ERROR |
この API の無料層制限に達しました。待つか、課金をアップグレードしてください。 |
INVALID_ARGUMENT_ERROR |
選択した言語に音声名が存在しません。 |
コストガード¶
Warning
3 つの Google API はすべてポストペイドです — 無料層を超えると、 停止せずに請求が始まります。大量作業を行う前に、Cloud プロジェクト で予算アラート を設定してください。