提取文本¶
从图像中提取文本——收据、屏幕截图、拍摄的文档、扫描页面,任何东西。
输出到 .txt(纯文本)或 .docx(带格式段落)。
此页面不翻译——仅提取。如果还想翻译,将输出送到翻译文档页面。
两种提取方法¶
| 方法 | 最适合 |
|---|---|
| OCR | 高量 / 批处理 / 成本敏感(每张图像免费或近免费) |
| LLM 视觉 | 保留布局、混合脚本、低质量图像、手写 |
在设置 → 提取文本 → 提取方法中选择默认方法。
OCR 引擎(OCR 方法)¶
| 引擎 | 成本 | 离线 | 语言 | 注释 |
|---|---|---|---|---|
| Tesseract | 免费 | 是 | 100+ | 默认。需要系统安装。 |
| EasyOCR | 免费 | 是(下载模型后) | 80+ | 最适合非拉丁脚本。~1 GB 模型。 |
| Google Cloud Vision | 付费(每月 1,000 张免费) | 否 | 60+ | 最高准确度。 |
在设置 → OCR中配置。
步骤¶
- 点击侧边栏中的提取文本。
- 拖入一个或多个图像文件(
.png、.jpg、.jpeg、.bmp、.webp、.tiff、.tif)。 - 选择源语言(帮助 OCR 选择正确的模型)。
- 选择输出格式——
.txt或.docx。 - 点击提取(或
Ctrl+Enter)。 - 完成后点击行上的打开。
何时使用哪种¶
- 文字多的收据 / 发票 → Tesseract 快速准确。
- 拍摄的手写笔记 → LLM 视觉远胜。
- 漫画 / 连环画面板 → EasyOCR(很好地处理垂直 CJK 文本)。
- 包含许多小字段的表单 → Google Cloud Vision 比其他引擎更好地保留字段边界。
技巧¶
OCR 或 LLM,不是两者
页面选择一种方法并运行。要比较输出,使用不同方法两次运行同一图像。
需要设置对话框
如果您选择 OCR 但没有配置 OCR 引擎(或 LLM 但没有配置 LLM 密钥), 页面会显示一个"需要设置"对话框,直接链接到相关的设置选项卡。
快捷键¶
| 快捷键 | 操作 |
|---|---|
Ctrl+Enter |
提取 |
Ctrl+O |
浏览 |
Ctrl+F |
聚焦历史搜索 |