跳转至

提取文本

从图像中提取文本——收据、屏幕截图、拍摄的文档、扫描页面,任何东西。 输出到 .txt(纯文本)或 .docx(带格式段落)。

此页面不翻译——仅提取。如果还想翻译,将输出送到翻译文档页面。

两种提取方法

方法 最适合
OCR 高量 / 批处理 / 成本敏感(每张图像免费或近免费)
LLM 视觉 保留布局、混合脚本、低质量图像、手写

设置 → 提取文本 → 提取方法中选择默认方法。

OCR 引擎(OCR 方法)

引擎 成本 离线 语言 注释
Tesseract 免费 100+ 默认。需要系统安装。
EasyOCR 免费 是(下载模型后) 80+ 最适合非拉丁脚本。~1 GB 模型。
Google Cloud Vision 付费(每月 1,000 张免费) 60+ 最高准确度。

设置 → OCR中配置。

步骤

  1. 点击侧边栏中的提取文本
  2. 拖入一个或多个图像文件(.png.jpg.jpeg.bmp.webp.tiff.tif)。
  3. 选择源语言(帮助 OCR 选择正确的模型)。
  4. 选择输出格式——.txt.docx
  5. 点击提取(或 Ctrl+Enter)。
  6. 完成后点击行上的打开

何时使用哪种

  • 文字多的收据 / 发票 → Tesseract 快速准确。
  • 拍摄的手写笔记 → LLM 视觉远胜。
  • 漫画 / 连环画面板 → EasyOCR(很好地处理垂直 CJK 文本)。
  • 包含许多小字段的表单 → Google Cloud Vision 比其他引擎更好地保留字段边界。

技巧

OCR 或 LLM,不是两者

页面选择一种方法并运行。要比较输出,使用不同方法两次运行同一图像。

需要设置对话框

如果您选择 OCR 但没有配置 OCR 引擎(或 LLM 但没有配置 LLM 密钥), 页面会显示一个"需要设置"对话框,直接链接到相关的设置选项卡。

快捷键

快捷键 操作
Ctrl+Enter 提取
Ctrl+O 浏览
Ctrl+F 聚焦历史搜索