OCR エンジン¶

OCR は画像からテキストを読むために使用されます — テキスト抽出ページと、ページがスキャンされている（テキストレイヤーがない）または 埋め込み画像を翻訳をオンにしたときの Document 翻訳内のフォールバックの両方で。

3 つの OCR エンジンから選択できます。

Tesseract（推奨デフォルト）¶

無料、高速、オフライン。システムインストールが必要。

macOSUbuntu / DebianFedora / RHELWindows

brew install tesseract tesseract-lang

sudo apt install tesseract-ocr tesseract-ocr-all

tesseract-ocr-all は、サポートされているすべての言語をもたらします。ディスクを節約するには、必要なものだけをインストールしてください（例：フランス語用の tesseract-ocr-fra）。

sudo dnf install tesseract tesseract-langpack-eng tesseract-langpack-fra

UB Mannheim の Tesseract リリースからインストーラーをダウンロード。実行し、デフォルトを受け入れる — 言語パックがバンドルされています。

検証：

tesseract --version
tesseract --list-langs

デスクトップアプリで：設定 → OCR → OCR メソッド = Tesseract。完了。

無料、オフライン。非ラテン文字（中国語、韓国語、日本語、タイ語）に最適。モデルは初回使用時にダウンロード（合計~1 GB）。

uv sync --extra easyocr

デスクトップアプリで：設定 → OCR → OCR メソッド = EasyOCR。

ある言語で初めて使用する時、関連するモデルが ~/.EasyOCR/ にダウンロードされます。以降の実行は瞬時です。

クラウド、有料（月 1,000 件の無料リクエスト）。最高精度、特にノイズの多い / 手書き / 多書式コンテンツで。

それらの API も有効にすれば、同じ Google Cloud API キーが Vision OCR、Speech-to-Text、Text-to-Speech を駆動します。

設定 → OCR タブには小さな比較テーブルが組み込まれています — 言語カバレッジ、オンライン/オフライン、コスト、精度。切り替えたい誘惑にかられるたびに再読してください。

場所	動作
テキスト抽出ページ（メソッド = OCR の時）	ドロップされた画像での直接 OCR
ドキュメントを翻訳 → PDF	スキャンのみのページ（テキストレイヤーなし）での OCR フォールバック
ドキュメントを翻訳 → Office で埋め込み画像を翻訳がオン	すべての埋め込み画像での OCR + LLM ビジョン

ソース言語を選ぶ

ほとんどの OCR エンジンは、何の言語を期待するか伝えたときにはるかに正確です。字幕 / ドキュメント / テキスト抽出ページは、あなたのソース言語ピッカーを OCR エンジンに転送します。

きれいに印刷されたテキストには Tesseract で十分

Tesseract / EasyOCR があなたのコンテンツで実際に失敗するまでクラウド OCR に手を伸ばさないでください。それらは無料で、高速で、驚くほど良いです。