Silniki OCR¶

OCR jest używany do odczytywania tekstu z obrazów — zarówno na stronie Extract Text, jak i jako fallback wewnątrz tłumaczenia Document, gdy strona jest zeskanowana (brak warstwy tekstowej) lub gdy włączasz Translate embedded images.

Możesz wybierać spośród trzech silników OCR.

Tesseract (zalecany domyślny)¶

Darmowy, szybki, offline. Wymaga instalacji systemowej.

macOSUbuntu / DebianFedora / RHELWindows

brew install tesseract tesseract-lang

sudo apt install tesseract-ocr tesseract-ocr-all

tesseract-ocr-all wnosi każdy obsługiwany język. Aby oszczędzać dysk, zainstaluj tylko to, czego potrzebujesz (np. tesseract-ocr-fra dla francuskiego).

sudo dnf install tesseract tesseract-langpack-eng tesseract-langpack-fra

Pobierz instalator z wydań Tesseract UB Mannheim. Uruchom go, zaakceptuj domyślne — pakiety językowe są dołączone.

Zweryfikuj:

tesseract --version
tesseract --list-langs

W aplikacji desktopowej: Settings → OCR → OCR method = Tesseract. Gotowe.

EasyOCR¶

Darmowy, offline. Świetny dla skryptów nielatynowych (chiński, koreański, japoński, tajski). Modele pobierają się przy pierwszym użyciu (~1 GB łącznie).

uv sync --extra easyocr

W aplikacji desktopowej: Settings → OCR → OCR method = EasyOCR.

Pierwszy raz, gdy używasz dla języka, odpowiedni model pobiera się do ~/.EasyOCR/. Kolejne uruchomienia są natychmiastowe.

Google Cloud Vision¶

Chmurowy, płatny (1000 darmowych żądań / miesiąc). Najwyższa dokładność, zwłaszcza na hałaśliwej / odręcznej / wielowieloskryptowej zawartości.

Utwórz projekt Google Cloud
Włącz Vision API
Utwórz klucz API
W aplikacji desktopowej: Settings → Service → Google Cloud API key → wklej
Settings → OCR → OCR method = Google Cloud OCR

Ten sam klucz Google Cloud API zasila Vision OCR, Speech-to-Text i Text-to-Speech, jeśli włączysz również te APIs.

Porównywanie dokładności¶

Zakładka Settings → OCR ma wbudowaną małą tabelę porównawczą — pokrycie językowe, online/offline, koszt, dokładność. Czytaj ją ponownie, kiedy jesteś kuszony, by przełączyć.

Kiedy używany jest OCR¶

Miejsce	Zachowanie
Strona Extract Text (gdy method = OCR)	Bezpośredni OCR na upuszczonych obrazach
Translate Document → PDF	Fallback OCR na stronach tylko-skan (bez warstwy tekstowej)
Translate Document → Office z włączonym Translate embedded images	OCR + LLM vision na każdym osadzonym obrazie

Wskazówki¶

Wybierz język źródłowy

Większość silników OCR jest znacznie dokładniejsza, gdy mówisz im, jakiego języka oczekiwać. Strony Subtitle / Document / Extract Text wszystkie przekazują twój selektor Source language do silnika OCR.

Tesseract wystarcza dla czystego drukowanego tekstu

Nie sięgaj po chmurowy OCR, dopóki Tesseract / EasyOCR rzeczywiście nie zawiedzie na twojej zawartości. Są darmowe, szybkie i zaskakująco dobre.