OCR 引擎¶

OCR 用于从图像中读取文本 — 既在提取文本页面，也作为文档翻译内的后备，当页面被扫描（无文本层）或当你打开 翻译嵌入图像时。

你可以从三个 OCR 引擎中选择。

Tesseract（推荐默认）¶

免费、快速、离线。需要系统安装。

macOSUbuntu / DebianFedora / RHELWindows

brew install tesseract tesseract-lang

sudo apt install tesseract-ocr tesseract-ocr-all

tesseract-ocr-all 带来所有支持的语言。要节省磁盘空间，只安装你需要的（例如 tesseract-ocr-fra 用于法语）。

sudo dnf install tesseract tesseract-langpack-eng tesseract-langpack-fra

从 UB Mannheim 的 Tesseract 发布下载安装程序。运行它，接受默认值 — 语言包已捆绑。

验证：

tesseract --version
tesseract --list-langs

在桌面应用中：设置 → OCR → OCR 方法 = Tesseract。完成。

免费，离线。非常适合非拉丁文字（中文、韩文、日文、泰文）。模型在首次使用时下载（总共约 1 GB）。

uv sync --extra easyocr

在桌面应用中：设置 → OCR → OCR 方法 = EasyOCR。

第一次为某语言使用它时，相关模型会下载到 ~/.EasyOCR/。后续运行很快。

云端，付费（每月 1,000 次免费请求）。最高准确度，特别是在嘈杂 / 手写 / 多脚本内容上。

如果你也启用这些 API，相同的 Google Cloud API 密钥可以驱动 Vision OCR、Speech-to-Text 和 Text-to-Speech。

设置 → OCR 选项卡有一个内置的小比较表 — 语言覆盖、在线/离线、成本、准确度。每次想要切换时重新阅读它。

选择源语言

大多数 OCR 引擎在你告诉它们要期待什么语言时准确得多。字幕 / 文档 / 提取文本页面都将你的源语言选择器转发到 OCR 引擎。

Tesseract 对清洁印刷文本足够

在 Tesseract / EasyOCR 实际上在你的内容上失败之前不要伸手去云 OCR。它们是免费的、快速的，而且出奇地好。