OCR 引擎¶
OCR 用于从图像中读取文本 — 既在提取文本 页面,也作为文档翻译内的后备,当页面被扫描(无文本层)或当你打开 翻译嵌入图像时。
你可以从三个 OCR 引擎中选择。
Tesseract(推荐默认)¶
免费、快速、离线。需要系统安装。
tesseract-ocr-all 带来所有支持的语言。要节省磁盘空间,只安装
你需要的(例如 tesseract-ocr-fra 用于法语)。
从 UB Mannheim 的 Tesseract 发布 下载安装程序。运行它,接受默认值 — 语言包已捆绑。
验证:
在桌面应用中:设置 → OCR → OCR 方法 = Tesseract。完成。
EasyOCR¶
免费,离线。非常适合非拉丁文字(中文、韩文、日文、泰文)。模型在首次 使用时下载(总共约 1 GB)。
在桌面应用中:设置 → OCR → OCR 方法 = EasyOCR。
第一次为某语言使用它时,相关模型会下载到 ~/.EasyOCR/。后续运行很快。
Google Cloud Vision¶
云端,付费(每月 1,000 次免费请求)。最高准确度,特别是在嘈杂 / 手写 / 多脚本内容上。
- 创建 Google Cloud 项目
- 启用 Vision API
- 创建 API 密钥
- 在桌面应用中:设置 → 服务 → Google Cloud API 密钥 → 粘贴
- 设置 → OCR → OCR 方法 = Google Cloud OCR
如果你也启用这些 API,相同的 Google Cloud API 密钥可以驱动 Vision OCR、Speech-to-Text 和 Text-to-Speech。
比较准确度¶
设置 → OCR 选项卡有一个内置的小比较表 — 语言覆盖、在线/离线、 成本、准确度。每次想要切换时重新阅读它。
OCR 何时使用¶
| 地方 | 行为 |
|---|---|
| 提取文本页面(方法 = OCR 时) | 对放下的图像进行直接 OCR |
| 翻译文档 → PDF | 在仅扫描页面(无文本层)上的 OCR 后备 |
| 翻译文档 → Office 启用翻译嵌入图像时 | 在每个嵌入图像上进行 OCR + LLM 视觉 |
提示¶
选择源语言
大多数 OCR 引擎在你告诉它们要期待什么语言时准确得多。字幕 / 文档 / 提取文本页面都将你的源语言选择器转发到 OCR 引擎。
Tesseract 对清洁印刷文本足够
在 Tesseract / EasyOCR 实际上在你的内容上失败之前不要伸手去 云 OCR。它们是免费的、快速的,而且出奇地好。