提取文本¶
從圖像中提取文本——收據、螢幕截圖、拍攝的文件、掃描頁面,任何東西。
輸出到 .txt(純文本)或 .docx(帶格式段落)。
此頁面不翻譯——僅提取。如果還想翻譯,將輸出送到翻譯文件頁面。
兩種提取方法¶
| 方法 | 最适合 |
|---|---|
| OCR | 高量 / 批處理 / 成本敏感(每張圖像免費或近免費) |
| LLM 視覺 | 保留布局、混合指令稿、低品質圖像、手寫 |
在設定 → 提取文本 → 提取方法中選擇預設方法。
OCR 引擎(OCR 方法)¶
| 引擎 | 成本 | 離線 | 語言 | 註解 |
|---|---|---|---|---|
| Tesseract | 免費 | 是 | 100+ | 預設。需要系統安裝。 |
| EasyOCR | 免費 | 是(下載模型后) | 80+ | 最适合非拉丁指令稿。~1 GB 模型。 |
| Google Cloud Vision | 付費(每月 1,000 張免費) | 否 | 60+ | 最高準確度。 |
在設定 → OCR中設定。
步驟¶
- 點擊側欄中的提取文本。
- 拖入一個或多個圖像檔案(
.png、.jpg、.jpeg、.bmp、.webp、.tiff、.tif)。 - 選擇源語言(說明 OCR 選擇正確的模型)。
- 選擇輸出格式——
.txt或.docx。 - 點擊提取(或
Ctrl+Enter)。 - 完成后點擊行上的開啟。
何時使用哪種¶
- 文字多的收據 / 發票 → Tesseract 快速準確。
- 拍攝的手寫筆記 → LLM 視覺遠勝。
- 漫畫 / 連環畫面板 → EasyOCR(很好地處理垂直 CJK 文本)。
- 套件含許多小字段的表單 → Google Cloud Vision 比其他引擎更好地保留字段邊界。
技巧¶
OCR 或 LLM,不是兩者
頁面選擇一種方法並執行。要比較輸出,使用不同方法兩次執行同一圖像。
需要設定對話方塊
如果您選擇 OCR 但沒有設定 OCR 引擎(或 LLM 但沒有設定 LLM 密鑰), 頁面會顯示一個"需要設定"對話方塊,直接鏈接到相關的設定頁籤。
快速鍵¶
| 快速鍵 | 操作 |
|---|---|
Ctrl+Enter |
提取 |
Ctrl+O |
瀏覽 |
Ctrl+F |
聚焦歷史搜尋 |