Mesin OCR¶

OCR digunakan untuk membaca teks dari gambar — baik di halaman Ekstrak Teks maupun sebagai fallback di dalam terjemahan Dokumen ketika halaman dipindai (tanpa lapisan teks) atau ketika kamu mengaktifkan Terjemahkan gambar tertanam.

Kamu bisa memilih dari tiga mesin OCR.

Tesseract (default yang direkomendasikan)¶

Gratis, cepat, offline. Membutuhkan instalasi sistem.

macOSUbuntu / DebianFedora / RHELWindows

brew install tesseract tesseract-lang

sudo apt install tesseract-ocr tesseract-ocr-all

tesseract-ocr-all membawa setiap bahasa yang didukung. Untuk menghemat disk, pasang hanya apa yang kamu butuhkan (misalnya tesseract-ocr-fra untuk Prancis).

sudo dnf install tesseract tesseract-langpack-eng tesseract-langpack-fra

Unduh installer dari release Tesseract UB Mannheim. Jalankan, terima default — paket bahasa dibundel.

Verifikasi:

tesseract --version
tesseract --list-langs

Di aplikasi desktop: Pengaturan → OCR → Metode OCR = Tesseract. Selesai.

EasyOCR¶

Gratis, offline. Bagus untuk script non-Latin (Cina, Korea, Jepang, Thai). Model diunduh pada penggunaan pertama (~1 GB total).

uv sync --extra easyocr

Di aplikasi desktop: Pengaturan → OCR → Metode OCR = EasyOCR.

Pertama kali kamu menggunakannya untuk suatu bahasa, model yang relevan diunduh ke ~/.EasyOCR/. Run berikutnya instan.

Google Cloud Vision¶

Cloud, berbayar (1.000 request gratis / bulan). Akurasi tertinggi, terutama pada konten yang bising / tulisan tangan / multi-script.

Buat proyek Google Cloud
Aktifkan Vision API
Buat kunci API
Di aplikasi desktop: Pengaturan → Layanan → Kunci API Google Cloud → tempel
Pengaturan → OCR → Metode OCR = Google Cloud OCR

Kunci API Google Cloud yang sama mendukung Vision OCR, Speech-to-Text, dan Text-to-Speech jika kamu juga mengaktifkan API tersebut.

Membandingkan akurasi¶

Tab Pengaturan → OCR memiliki tabel perbandingan kecil yang terintegrasi — cakupan bahasa, online/offline, biaya, akurasi. Baca ulang setiap kali kamu tergoda untuk berganti.

Kapan OCR digunakan¶

Tempat	Perilaku
Halaman Ekstrak Teks (saat metode = OCR)	OCR langsung pada gambar yang dijatuhkan
Terjemahkan Dokumen → PDF	Fallback OCR pada halaman hanya-pindai (tanpa lapisan teks)
Terjemahkan Dokumen → Office dengan Terjemahkan gambar tertanam aktif	OCR + LLM vision pada setiap gambar tertanam

Tips¶

Pilih bahasa sumber

Sebagian besar mesin OCR jauh lebih akurat ketika kamu memberi tahu mereka bahasa apa yang diharapkan. Halaman Subtitle / Dokumen / Ekstrak Teks semuanya meneruskan pemilih Bahasa sumber kamu ke mesin OCR.

Tesseract cukup untuk teks cetak yang bersih

Jangan langsung beralih ke OCR cloud sampai Tesseract / EasyOCR benar-benar gagal pada konten kamu. Mereka gratis, cepat, dan mengejutkan baiknya.