Перейти к содержанию

OCR-движки

OCR используется для считывания текста из изображений — как на странице Извлечение текста, так и в качестве запасного варианта внутри перевода Документа, когда страница отсканирована (нет текстового слоя) или когда ты включаешь Переводить встроенные изображения.

Ты можешь выбирать из трёх OCR-движков.

Tesseract (рекомендуется по умолчанию)

Бесплатный, быстрый, офлайн. Нужна установка в системе.

brew install tesseract tesseract-lang
sudo apt install tesseract-ocr tesseract-ocr-all

tesseract-ocr-all приносит все поддерживаемые языки. Чтобы сэкономить место на диске, устанавливай только то, что нужно (например, tesseract-ocr-fra для французского).

sudo dnf install tesseract tesseract-langpack-eng tesseract-langpack-fra

Скачай установщик с релизов Tesseract от UB Mannheim. Запусти его, прими значения по умолчанию — языковые пакеты включены.

Проверка:

tesseract --version
tesseract --list-langs

В desktop-приложении: Настройки → OCR → Метод OCR = Tesseract. Готово.

EasyOCR

Бесплатный, офлайн. Отличный для нелатинских скриптов (китайский, корейский, японский, тайский). Модели скачиваются при первом использовании (~1 ГБ всего).

uv sync --extra easyocr

В desktop-приложении: Настройки → OCR → Метод OCR = EasyOCR.

В первый раз, когда ты используешь его для языка, соответствующая модель скачивается в ~/.EasyOCR/. Последующие запуски мгновенные.

Google Cloud Vision

Облачный, платный (1 000 бесплатных запросов / месяц). Высочайшая точность, особенно на шумном / рукописном / многоскриптовом контенте.

  1. Создай проект Google Cloud
  2. Включи Vision API
  3. Создай API-ключ
  4. В desktop-приложении: Настройки → Сервис → API-ключ Google Cloud → вставь
  5. Настройки → OCR → Метод OCR = Google Cloud OCR

Тот же API-ключ Google Cloud обеспечивает Vision OCR, Speech-to-Text и Text-to-Speech, если ты также включишь эти API.

Сравнение точности

Вкладка Настройки → OCR имеет небольшую встроенную таблицу сравнения — языковое покрытие, онлайн/офлайн, стоимость, точность. Перечитывай её каждый раз, когда возникает соблазн переключиться.

Когда используется OCR

Место Поведение
Страница Извлечение текста (когда метод = OCR) Прямой OCR на сброшенных изображениях
Перевод документа → PDF Запасной OCR на страницах только-сканах (нет текстового слоя)
Перевод документа → Office с Переводить встроенные изображения включено OCR + LLM-зрение на каждом встроенном изображении

Советы

Выбери исходный язык

Большинство OCR-движков намного точнее, когда ты сообщаешь им, какой язык ожидать. Страницы Субтитры / Документ / Извлечение текста все передают твой селектор Исходный язык в OCR-движок.

Tesseract достаточно для чистого печатного текста

Не тянись за облачным OCR, пока Tesseract / EasyOCR на самом деле не подвели на твоём контенте. Они бесплатны, быстры и удивительно хороши.