OCR-движки¶
OCR используется для считывания текста из изображений — как на странице Извлечение текста, так и в качестве запасного варианта внутри перевода Документа, когда страница отсканирована (нет текстового слоя) или когда ты включаешь Переводить встроенные изображения.
Ты можешь выбирать из трёх OCR-движков.
Tesseract (рекомендуется по умолчанию)¶
Бесплатный, быстрый, офлайн. Нужна установка в системе.
tesseract-ocr-all приносит все поддерживаемые языки. Чтобы
сэкономить место на диске, устанавливай только то, что нужно
(например, tesseract-ocr-fra для французского).
Скачай установщик с релизов Tesseract от UB Mannheim. Запусти его, прими значения по умолчанию — языковые пакеты включены.
Проверка:
В desktop-приложении: Настройки → OCR → Метод OCR = Tesseract. Готово.
EasyOCR¶
Бесплатный, офлайн. Отличный для нелатинских скриптов (китайский, корейский, японский, тайский). Модели скачиваются при первом использовании (~1 ГБ всего).
В desktop-приложении: Настройки → OCR → Метод OCR = EasyOCR.
В первый раз, когда ты используешь его для языка, соответствующая
модель скачивается в ~/.EasyOCR/. Последующие запуски мгновенные.
Google Cloud Vision¶
Облачный, платный (1 000 бесплатных запросов / месяц). Высочайшая точность, особенно на шумном / рукописном / многоскриптовом контенте.
- Создай проект Google Cloud
- Включи Vision API
- Создай API-ключ
- В desktop-приложении: Настройки → Сервис → API-ключ Google Cloud → вставь
- Настройки → OCR → Метод OCR = Google Cloud OCR
Тот же API-ключ Google Cloud обеспечивает Vision OCR, Speech-to-Text и Text-to-Speech, если ты также включишь эти API.
Сравнение точности¶
Вкладка Настройки → OCR имеет небольшую встроенную таблицу сравнения — языковое покрытие, онлайн/офлайн, стоимость, точность. Перечитывай её каждый раз, когда возникает соблазн переключиться.
Когда используется OCR¶
| Место | Поведение |
|---|---|
| Страница Извлечение текста (когда метод = OCR) | Прямой OCR на сброшенных изображениях |
| Перевод документа → PDF | Запасной OCR на страницах только-сканах (нет текстового слоя) |
| Перевод документа → Office с Переводить встроенные изображения включено | OCR + LLM-зрение на каждом встроенном изображении |
Советы¶
Выбери исходный язык
Большинство OCR-движков намного точнее, когда ты сообщаешь им, какой язык ожидать. Страницы Субтитры / Документ / Извлечение текста все передают твой селектор Исходный язык в OCR-движок.
Tesseract достаточно для чистого печатного текста
Не тянись за облачным OCR, пока Tesseract / EasyOCR на самом деле не подвели на твоём контенте. Они бесплатны, быстры и удивительно хороши.