OCR 引擎¶

OCR 用於從圖像中讀取文本 — 既在提取文本頁面，也作為文件翻譯內的后備，当頁面被掃描（無文本層）或当你開啟 翻譯嵌入圖像時。

你可以從三個 OCR 引擎中選擇。

Tesseract（推薦預設）¶

免費、快速、離線。需要系統安裝。

macOSUbuntu / DebianFedora / RHELWindows

brew install tesseract tesseract-lang

sudo apt install tesseract-ocr tesseract-ocr-all

tesseract-ocr-all 帶來所有支援的語言。要節省磁盤空間，只安裝你需要的（例如 tesseract-ocr-fra 用於法語）。

sudo dnf install tesseract tesseract-langpack-eng tesseract-langpack-fra

從 UB Mannheim 的 Tesseract 發布下載安裝程式。執行它，接受預設值 — 語言套件已捆綁。

驗證：

tesseract --version
tesseract --list-langs

在桌面應用程式中：設定 → OCR → OCR 方法 = Tesseract。完成。

免費，離線。非常适合非拉丁文字（中文、韓文、日文、泰文）。模型在首次使用時下載（總共約 1 GB）。

uv sync --extra easyocr

在桌面應用程式中：設定 → OCR → OCR 方法 = EasyOCR。

第一次為某語言使用它時，相關模型會下載到 ~/.EasyOCR/。后續執行很快。

雲端，付費（每月 1,000 次免費要求）。最高準確度，特別是在嘈雜 / 手寫 / 多指令稿內容上。

如果你也啟用這些 API，相同的 Google Cloud API 密鑰可以驅動 Vision OCR、Speech-to-Text 和 Text-to-Speech。

設定 → OCR 頁籤有一個內置的小比較表 — 語言覆蓋、線上/離線、成本、準確度。每次想要切換時重新閱讀它。

選擇源語言

大多數 OCR 引擎在你告訴它們要期待什麼語言時準確得多。字幕 / 文件 / 提取文本頁面都將你的源語言選擇器轉發到 OCR 引擎。

Tesseract 對清潔印刷文本足夠

在 Tesseract / EasyOCR 實際上在你的內容上失敗之前不要伸手去雲 OCR。它們是免費的、快速的，而且出奇地好。