よくある質問¶

一般¶

オフラインで動作しますか?¶

ほとんどはい。具体的には:

翻訳には LLM が必要です。無料の Gemini API はオンライン; Custom Provider 設定経由の ローカル Ollama / LM Studio は完全にオフライン。
Tesseract または EasyOCR での OCR はオフライン。
Whisper(デフォルト)での STT はオフライン。
Edge TTS(デフォルト)での TTS はオンライン; ElevenLabs / Google Cloud TTS / Gemini TTS はオンライン (無料または有料);Piper TTS は完全にオフラインのニューラル TTS — 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード 経由で言語ごとの音声(~25–60 MB ONNX ファイル)を一度ダウンロードすれば、キーなし、ネットワーク呼び出しなし。

完全に air-gapped のセットアップ:Custom Provider → ローカル LLM、 OCR には Tesseract または EasyOCR、STT には Whisper、音声出力には Piper TTS。

翻訳されたファイルはどこに保存されますか?¶

デフォルトでオリジナルの隣に _translated_<src>_<tgt> サフィックス付き (例:report_translated_en_fr.docx)。設定 → 一般 → 翻訳保存パス で機能ごとにオーバーライド。

設定はどこに保存されますか?¶

INI ファイル:

OS	パス
Linux	`~/.config/ai-translate/settings.ini`
macOS	`~/Library/Preferences/ai-translate/settings.ini`
Windows	`%APPDATA%\ai-translate\settings.ini`

API キーは OS キーチェーンに(INI ではなく)。翻訳履歴はデータディレクトリの SQLite DB に。

データはどう扱われますか?¶

ローカルファースト — クラウド LLM / OCR / STT / TTS サービスを呼び出していない限り、テキストはマシンを離れません。
テレメトリなし — アプリは "phone home" しません。アプリ自体が行う唯一の送信リクエストはオプションの GitHub Releases 更新チェック (設定 → 一般 で切り替え可能);クラウドバックエンドはそれぞれのベンダーのみを呼び出します。
API キー — OS キーチェーンに保存。デスクトップアプリのキーチェーンフォールバックはキーチェーンデーモンが利用できない時のプレーンテキスト INI。

Google ドキュメント / Notion ページを翻訳できますか?¶

直接はできません。まず .docx にエクスポートして翻訳し、翻訳されたファイルを再インポート。Notion(Markdown / HTML としてエクスポート)、Confluence(.docx としてエクスポート)等も同様。

モデル / エンジンの選択¶

どの LLM モデルを使うべきですか?¶

ほとんどのユーザー:

任意の Gemini Flash バリアント — 無料枠、高速、驚くほど良い。日常的な翻訳に使用。名前は gemini-2.5-flash、 gemini-3-flash-preview 等、現在の利用状況による。
任意の Gemini Pro バリアント — トークン課金、より高品質。重要なドキュメント(法務、技術、顧客向け)に使用。
ローカル Ollama + 7B-13B モデル — オフライン / プライバシーが必要な時。

機能ごとのモデルセレクターは、チャットスタイルの翻訳に高速モデルを使用し、ドキュメント用には高価なものを予約することを意味します。

どの OCR エンジンを使うべきですか?¶

Tesseract 主要なスクリプトのきれいな印刷テキスト用。無料、オフライン、高速。
EasyOCR 非ラテンスクリプト(特に CJK)とノイジーな画像用。
Google Cloud Vision 手書き、混合スクリプト、支払える時の最高精度用。

どの STT 方法を使うべきですか?¶

オフライン / プライバシー用に Whisper local。
マルチスピーカー録音用に Soniox — スピーカーラベルが SRT に往復。
電話 / 医療オーディオ用に Google Cloud STT(ドメインモデルが良い)。
リアルタイム speech-to-speech 翻訳用に Gemini Live。

どの TTS バックエンド?¶

無料の高品質音声用に Edge TTS。
プレミアム / ブランド / クローン音声用に ElevenLabs。
Edge のカバレッジが薄いロングテール言語の WaveNet 音声用に Google Cloud TTS。
既存の Gemini API キーを再利用する無料の自然な prebuilt 音声用に Gemini TTS。
オフライン / air-gapped な音声出力が必要な時の Piper TTS。トレードオフ:各言語は 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード 経由で ~25–60 MB の音声を一度ダウンロードする必要があり、アプリの 45 言語のうち 13 言語に Piper 音声がない (それらは静かに Edge TTS にフォールバック)。

ワークフロー¶

フォルダ全体をどう翻訳しますか?¶

フォルダを ドキュメント翻訳 のドロップゾーンにドロップ。内部のサポートされているファイル(再帰的)がキューに入れられ、他はすべて静かにスキップされます。ドロップごとに 100 ファイルのキャップ;より大きなバッチ → 複数のドロップに分割。

翻訳を一時停止して再開できますか?¶

はい。いつでもアプリを終了 — Pending / Translating タスクは次回起動時に再開。タスクごとのチェックポイントは、PDF の 100 ページ中 47 ページ目が再開時にやり直されないことを意味します。

翻訳を手動で編集できますか?¶

テキスト翻訳 の場合 — はい、右パネルをクリックして入力。編集はエントリの履歴レコードに自動保存されます。

ドキュメント翻訳 の場合 — 通常のエディタ(Word、LibreOffice 等) で翻訳ファイルを開いてそこで編集。アプリは編集を履歴にラウンドトリップさせません。

文字列のリストを一括翻訳できますか?¶

CLI を使用:

ait *.txt --target French

またはプロセス内文字列(コードから抽出された UI 文字列など)用に、リストで MCP translate_text ツールを呼び出すか、Python API を直接使用:

from src.core.llm_engine import translate_text
out = translate_text(texts=["Hello", "World"], target_lang="French")

用語集¶

LLM が私の用語集を使用しないのはなぜ?¶

確認する 3 つのこと:

セットが アクティブ(チェックボックスにチェック)。
用語集のソース用語が実際にソーステキストに表示される (per-call 圧縮はバッチテキストに一致するエントリのみ LLM に送信 — トークンを節約しますが、誤入力されたソース用語は不可視)。
モデルが十分強い — flash-lite は時々 flash と pro が尊重するヒントを無視。

用語集の用語はアクセントに依存せずマッチしますか?¶

はい。用語集検索と用語集ページの検索バーは両方ともアクセントとケースを取り除く正規化関数を使用。だから cafe、Café、CAFE はすべてソースが Café のエントリにマッチ。

プライバシー¶

利用データを収集しますか?¶

いいえ。アプリには analytics SDK がありません。オプションの更新チェックは起動時に単一の GitHub Releases エンドポイントをポーリング;設定 → 一般 で切り替え可能。

API キーは安全ですか?¶

OS キーチェーン(macOS の Keychain、Windows の Credential Manager、 Linux の Secret Service)に保存されます。他のプロセスはあなたの明示的な許可なしには読み取れません。フォールバック(キーチェーンデーモンが利用できない時 — 通常はヘッドレス Linux サーバー)はユーザーの設定ディレクトリ下のプレーンテキスト INI;そのモードではキーはファイル権限で保護されますが、暗号的には暗号化されません。