Engine OCR¶

OCR được dùng để đọc văn bản từ ảnh — cả trên trang Trích xuất văn bản và làm fallback bên trong dịch tài liệu khi một trang được scan (không có layer text) hoặc khi bạn bật Dịch ảnh nhúng.

Bạn có thể chọn từ ba engine OCR.

Tesseract (mặc định khuyến nghị)¶

Miễn phí, nhanh, offline. Cần cài đặt trên hệ thống.

macOSUbuntu / DebianFedora / RHELWindows

brew install tesseract tesseract-lang

sudo apt install tesseract-ocr tesseract-ocr-all

tesseract-ocr-all bao gồm mọi ngôn ngữ hỗ trợ. Để tiết kiệm ổ đĩa, chỉ cài những gì bạn cần (ví dụ tesseract-ocr-fra cho tiếng Pháp).

sudo dnf install tesseract tesseract-langpack-eng tesseract-langpack-fra

Tải installer từ bản phát hành Tesseract của UB Mannheim. Chạy nó, chấp nhận mặc định — gói ngôn ngữ đã được gộp sẵn.

Xác minh:

tesseract --version
tesseract --list-langs

Trong ứng dụng desktop: Cài đặt → OCR → Phương thức OCR = Tesseract. Xong.

EasyOCR¶

Miễn phí, offline. Tốt cho chữ không thuộc Latin (Trung, Hàn, Nhật, Thái). Model tải khi dùng lần đầu (~1 GB tổng).

uv sync --extra easyocr

Trong ứng dụng desktop: Cài đặt → OCR → Phương thức OCR = EasyOCR.

Lần đầu dùng cho một ngôn ngữ, model tương ứng tải về ~/.EasyOCR/. Các lần sau là tức thì.

Google Cloud Vision¶

Cloud, có phí (1.000 yêu cầu miễn phí / tháng). Chính xác nhất, đặc biệt với nội dung nhiễu / viết tay / đa script.

Tạo dự án Google Cloud
Bật Vision API
Tạo API key
Trong ứng dụng desktop: Cài đặt → Dịch vụ → Google Cloud API key → dán
Cài đặt → OCR → Phương thức OCR = Google Cloud OCR

Cùng một Google Cloud API key này cấp nguồn cho Vision OCR, Speech-to-Text và Text-to-Speech nếu bạn cũng bật các API đó.

So sánh độ chính xác¶

Tab Cài đặt → OCR có sẵn một bảng so sánh nhỏ — phạm vi ngôn ngữ, online/offline, chi phí, độ chính xác. Đọc lại bất cứ khi nào bạn định chuyển engine.

Khi nào OCR được dùng¶

Nơi	Hành vi
Trang Trích xuất văn bản (khi phương thức = OCR)	OCR trực tiếp trên ảnh thả vào
Dịch tài liệu → PDF	OCR fallback trên trang chỉ-scan (không có layer text)
Dịch tài liệu → Office với Dịch ảnh nhúng bật	OCR + Vision LLM trên từng ảnh nhúng

Mẹo¶

Chọn ngôn ngữ nguồn

Hầu hết engine OCR chính xác hơn nhiều khi bạn cho biết ngôn ngữ cần chờ đợi. Trang Phụ đề / Tài liệu / Trích xuất văn bản đều chuyển bộ chọn Ngôn ngữ nguồn của bạn cho engine OCR.

Tesseract đủ cho text in sạch

Đừng vội với cloud OCR cho đến khi Tesseract / EasyOCR thực sự thất bại trên nội dung của bạn. Chúng miễn phí, nhanh và bất ngờ tốt.