コンテンツにスキップ

よくある質問

一般

オフラインで動作しますか?

ほとんどはい。具体的には:

  • 翻訳には LLM が必要です。無料の Gemini API はオンライン; Custom Provider 設定経由の ローカル Ollama / LM Studio は 完全にオフライン。
  • Tesseract または EasyOCR での OCR はオフライン。
  • Whisper(デフォルト)での STT はオフライン。
  • Edge TTS(デフォルト)での TTS はオンライン; ElevenLabs / Google Cloud TTS / Gemini TTS はオンライン (無料または有料);Piper TTS は完全にオフラインのニューラル TTS — 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード 経由で言語ごとの音声(~25–60 MB ONNX ファイル)を一度ダウンロード すれば、キーなし、ネットワーク呼び出しなし。

完全に air-gapped のセットアップ:Custom Provider → ローカル LLM、 OCR には Tesseract または EasyOCR、STT には Whisper、音声出力には Piper TTS。

翻訳されたファイルはどこに保存されますか?

デフォルトでオリジナルの隣に _translated_<src>_<tgt> サフィックス付き (例:report_translated_en_fr.docx)。設定 → 一般 → 翻訳保存パス で機能ごとにオーバーライド。

設定はどこに保存されますか?

INI ファイル:

OS パス
Linux ~/.config/ai-translate/settings.ini
macOS ~/Library/Preferences/ai-translate/settings.ini
Windows %APPDATA%\ai-translate\settings.ini

API キーは OS キーチェーンに(INI ではなく)。翻訳履歴はデータ ディレクトリの SQLite DB に。

データはどう扱われますか?

  • ローカルファースト — クラウド LLM / OCR / STT / TTS サービスを 呼び出していない限り、テキストはマシンを離れません。
  • テレメトリなし — アプリは "phone home" しません。アプリ自体が 行う唯一の送信リクエストはオプションの GitHub Releases 更新チェック (設定 → 一般 で切り替え可能);クラウドバックエンドは それぞれのベンダーのみを呼び出します。
  • API キー — OS キーチェーンに保存。デスクトップアプリの キーチェーンフォールバックはキーチェーンデーモンが利用できない時 のプレーンテキスト INI。

Google ドキュメント / Notion ページを翻訳できますか?

直接はできません。まず .docx にエクスポートして翻訳し、 翻訳されたファイルを再インポート。Notion(Markdown / HTML として エクスポート)、Confluence(.docx としてエクスポート)等も同様。

モデル / エンジンの選択

どの LLM モデルを使うべきですか?

ほとんどのユーザー:

  • 任意の Gemini Flash バリアント — 無料枠、高速、驚くほど良い。 日常的な翻訳に使用。名前は gemini-2.5-flashgemini-3-flash-preview 等、現在の利用状況による。
  • 任意の Gemini Pro バリアント — トークン課金、より高品質。 重要なドキュメント(法務、技術、顧客向け)に使用。
  • ローカル Ollama + 7B-13B モデル — オフライン / プライバシーが 必要な時。

機能ごとのモデルセレクターは、チャットスタイルの翻訳に高速モデルを 使用し、ドキュメント用には高価なものを予約することを意味します。

どの OCR エンジンを使うべきですか?

  • Tesseract 主要なスクリプトのきれいな印刷テキスト用。 無料、オフライン、高速。
  • EasyOCR 非ラテンスクリプト(特に CJK)とノイジーな画像用。
  • Google Cloud Vision 手書き、混合スクリプト、支払える時の 最高精度用。

どの STT 方法を使うべきですか?

  • オフライン / プライバシー用に Whisper local
  • マルチスピーカー録音用に Soniox — スピーカーラベルが SRT に往復。
  • 電話 / 医療オーディオ用に Google Cloud STT(ドメインモデルが 良い)。
  • リアルタイム speech-to-speech 翻訳用に Gemini Live

どの TTS バックエンド?

  • 無料の高品質音声用に Edge TTS
  • プレミアム / ブランド / クローン音声用に ElevenLabs
  • Edge のカバレッジが薄いロングテール言語の WaveNet 音声用に Google Cloud TTS
  • 既存の Gemini API キーを再利用する無料の自然な prebuilt 音声用に Gemini TTS
  • オフライン / air-gapped な音声出力が必要な時の Piper TTS。 トレードオフ:各言語は 設定 → 音声 → Piper TTS → 今すぐ音声を ダウンロード 経由で ~25–60 MB の音声を一度ダウンロードする必要が あり、アプリの 45 言語のうち 13 言語に Piper 音声がない (それらは静かに Edge TTS にフォールバック)。

ワークフロー

フォルダ全体をどう翻訳しますか?

フォルダを ドキュメント翻訳 のドロップゾーンにドロップ。 内部のサポートされているファイル(再帰的)がキューに入れられ、 他はすべて静かにスキップされます。ドロップごとに 100 ファイルの キャップ;より大きなバッチ → 複数のドロップに分割。

翻訳を一時停止して再開できますか?

はい。いつでもアプリを終了 — Pending / Translating タスクは次回 起動時に再開。タスクごとのチェックポイントは、PDF の 100 ページ中 47 ページ目が再開時にやり直されないことを意味します。

翻訳を手動で編集できますか?

テキスト翻訳 の場合 — はい、右パネルをクリックして入力。 編集はエントリの履歴レコードに自動保存されます。

ドキュメント翻訳 の場合 — 通常のエディタ(Word、LibreOffice 等) で翻訳ファイルを開いてそこで編集。アプリは編集を履歴にラウンド トリップさせません。

文字列のリストを一括翻訳できますか?

CLI を使用:

ait *.txt --target French

またはプロセス内文字列(コードから抽出された UI 文字列など)用に、 リストで MCP translate_text ツールを呼び出すか、Python API を 直接使用:

from src.core.llm_engine import translate_text
out = translate_text(texts=["Hello", "World"], target_lang="French")

用語集

LLM が私の用語集を使用しないのはなぜ?

確認する 3 つのこと:

  1. セットが アクティブ(チェックボックスにチェック)。
  2. 用語集のソース用語が実際にソーステキストに表示される (per-call 圧縮はバッチテキストに一致するエントリのみ LLM に 送信 — トークンを節約しますが、誤入力されたソース用語は不可視)。
  3. モデルが十分強い — flash-lite は時々 flashpro が 尊重するヒントを無視。

用語集の用語はアクセントに依存せずマッチしますか?

はい。用語集検索と用語集ページの検索バーは両方ともアクセントと ケースを取り除く正規化関数を使用。だから cafeCaféCAFE はすべてソースが Café のエントリにマッチ。

プライバシー

利用データを収集しますか?

いいえ。アプリには analytics SDK がありません。オプションの更新 チェックは起動時に単一の GitHub Releases エンドポイントを ポーリング;設定 → 一般 で切り替え可能。

API キーは安全ですか?

OS キーチェーン(macOS の Keychain、Windows の Credential Manager、 Linux の Secret Service)に保存されます。他のプロセスはあなたの 明示的な許可なしには読み取れません。フォールバック(キーチェーン デーモンが利用できない時 — 通常はヘッドレス Linux サーバー)は ユーザーの設定ディレクトリ下のプレーンテキスト INI;そのモードでは キーはファイル権限で保護されますが、暗号的には暗号化されません。