よくある質問¶
一般¶
オフラインで動作しますか?¶
ほとんどはい。具体的には:
- 翻訳には LLM が必要です。無料の Gemini API はオンライン; Custom Provider 設定経由の ローカル Ollama / LM Studio は 完全にオフライン。
- Tesseract または EasyOCR での OCR はオフライン。
- Whisper(デフォルト)での STT はオフライン。
- Edge TTS(デフォルト)での TTS はオンライン; ElevenLabs / Google Cloud TTS / Gemini TTS はオンライン (無料または有料);Piper TTS は完全にオフラインのニューラル TTS — 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード 経由で言語ごとの音声(~25–60 MB ONNX ファイル)を一度ダウンロード すれば、キーなし、ネットワーク呼び出しなし。
完全に air-gapped のセットアップ:Custom Provider → ローカル LLM、 OCR には Tesseract または EasyOCR、STT には Whisper、音声出力には Piper TTS。
翻訳されたファイルはどこに保存されますか?¶
デフォルトでオリジナルの隣に _translated_<src>_<tgt> サフィックス付き
(例:report_translated_en_fr.docx)。設定 → 一般 → 翻訳保存パス
で機能ごとにオーバーライド。
設定はどこに保存されますか?¶
INI ファイル:
| OS | パス |
|---|---|
| Linux | ~/.config/ai-translate/settings.ini |
| macOS | ~/Library/Preferences/ai-translate/settings.ini |
| Windows | %APPDATA%\ai-translate\settings.ini |
API キーは OS キーチェーンに(INI ではなく)。翻訳履歴はデータ ディレクトリの SQLite DB に。
データはどう扱われますか?¶
- ローカルファースト — クラウド LLM / OCR / STT / TTS サービスを 呼び出していない限り、テキストはマシンを離れません。
- テレメトリなし — アプリは "phone home" しません。アプリ自体が 行う唯一の送信リクエストはオプションの GitHub Releases 更新チェック (設定 → 一般 で切り替え可能);クラウドバックエンドは それぞれのベンダーのみを呼び出します。
- API キー — OS キーチェーンに保存。デスクトップアプリの キーチェーンフォールバックはキーチェーンデーモンが利用できない時 のプレーンテキスト INI。
Google ドキュメント / Notion ページを翻訳できますか?¶
直接はできません。まず .docx にエクスポートして翻訳し、
翻訳されたファイルを再インポート。Notion(Markdown / HTML として
エクスポート)、Confluence(.docx としてエクスポート)等も同様。
モデル / エンジンの選択¶
どの LLM モデルを使うべきですか?¶
ほとんどのユーザー:
- 任意の Gemini Flash バリアント — 無料枠、高速、驚くほど良い。
日常的な翻訳に使用。名前は
gemini-2.5-flash、gemini-3-flash-preview等、現在の利用状況による。 - 任意の Gemini Pro バリアント — トークン課金、より高品質。 重要なドキュメント(法務、技術、顧客向け)に使用。
- ローカル Ollama + 7B-13B モデル — オフライン / プライバシーが 必要な時。
機能ごとのモデルセレクターは、チャットスタイルの翻訳に高速モデルを 使用し、ドキュメント用には高価なものを予約することを意味します。
どの OCR エンジンを使うべきですか?¶
- Tesseract 主要なスクリプトのきれいな印刷テキスト用。 無料、オフライン、高速。
- EasyOCR 非ラテンスクリプト(特に CJK)とノイジーな画像用。
- Google Cloud Vision 手書き、混合スクリプト、支払える時の 最高精度用。
どの STT 方法を使うべきですか?¶
- オフライン / プライバシー用に Whisper local。
- マルチスピーカー録音用に Soniox — スピーカーラベルが SRT に往復。
- 電話 / 医療オーディオ用に Google Cloud STT(ドメインモデルが 良い)。
- リアルタイム speech-to-speech 翻訳用に Gemini Live。
どの TTS バックエンド?¶
- 無料の高品質音声用に Edge TTS。
- プレミアム / ブランド / クローン音声用に ElevenLabs。
- Edge のカバレッジが薄いロングテール言語の WaveNet 音声用に Google Cloud TTS。
- 既存の Gemini API キーを再利用する無料の自然な prebuilt 音声用に Gemini TTS。
- オフライン / air-gapped な音声出力が必要な時の Piper TTS。 トレードオフ:各言語は 設定 → 音声 → Piper TTS → 今すぐ音声を ダウンロード 経由で ~25–60 MB の音声を一度ダウンロードする必要が あり、アプリの 45 言語のうち 13 言語に Piper 音声がない (それらは静かに Edge TTS にフォールバック)。
ワークフロー¶
フォルダ全体をどう翻訳しますか?¶
フォルダを ドキュメント翻訳 のドロップゾーンにドロップ。 内部のサポートされているファイル(再帰的)がキューに入れられ、 他はすべて静かにスキップされます。ドロップごとに 100 ファイルの キャップ;より大きなバッチ → 複数のドロップに分割。
翻訳を一時停止して再開できますか?¶
はい。いつでもアプリを終了 — Pending / Translating タスクは次回 起動時に再開。タスクごとのチェックポイントは、PDF の 100 ページ中 47 ページ目が再開時にやり直されないことを意味します。
翻訳を手動で編集できますか?¶
テキスト翻訳 の場合 — はい、右パネルをクリックして入力。 編集はエントリの履歴レコードに自動保存されます。
ドキュメント翻訳 の場合 — 通常のエディタ(Word、LibreOffice 等) で翻訳ファイルを開いてそこで編集。アプリは編集を履歴にラウンド トリップさせません。
文字列のリストを一括翻訳できますか?¶
CLI を使用:
またはプロセス内文字列(コードから抽出された UI 文字列など)用に、
リストで MCP translate_text ツールを呼び出すか、Python API を
直接使用:
from src.core.llm_engine import translate_text
out = translate_text(texts=["Hello", "World"], target_lang="French")
用語集¶
LLM が私の用語集を使用しないのはなぜ?¶
確認する 3 つのこと:
- セットが アクティブ(チェックボックスにチェック)。
- 用語集のソース用語が実際にソーステキストに表示される (per-call 圧縮はバッチテキストに一致するエントリのみ LLM に 送信 — トークンを節約しますが、誤入力されたソース用語は不可視)。
- モデルが十分強い —
flash-liteは時々flashとproが 尊重するヒントを無視。
用語集の用語はアクセントに依存せずマッチしますか?¶
はい。用語集検索と用語集ページの検索バーは両方ともアクセントと
ケースを取り除く正規化関数を使用。だから cafe、Café、CAFE
はすべてソースが Café のエントリにマッチ。
プライバシー¶
利用データを収集しますか?¶
いいえ。アプリには analytics SDK がありません。オプションの更新 チェックは起動時に単一の GitHub Releases エンドポイントを ポーリング;設定 → 一般 で切り替え可能。
API キーは安全ですか?¶
OS キーチェーン(macOS の Keychain、Windows の Credential Manager、 Linux の Secret Service)に保存されます。他のプロセスはあなたの 明示的な許可なしには読み取れません。フォールバック(キーチェーン デーモンが利用できない時 — 通常はヘッドレス Linux サーバー)は ユーザーの設定ディレクトリ下のプレーンテキスト INI;そのモードでは キーはファイル権限で保護されますが、暗号的には暗号化されません。