Часто задаваемые вопросы¶
Общее¶
Работает ли он офлайн?¶
В основном да. Конкретно:
- Перевод требует LLM. Бесплатный API Gemini онлайн; локальный Ollama / LM Studio через настройки Custom Provider полностью офлайн.
- OCR с Tesseract или EasyOCR офлайн.
- STT с Whisper (по умолчанию) офлайн.
- TTS с Edge TTS (по умолчанию) онлайн; ElevenLabs / Google Cloud TTS / Gemini TTS онлайн (бесплатные или платные); Piper TTS — полностью офлайн нейронный TTS, без ключа, без сетевых вызовов после загрузки голоса по языку (ONNX-файл ~25–60 МБ) через Настройки → Голос → Piper TTS → Загрузить голоса.
Для полностью air-gapped установки: Custom Provider → локальный LLM, Tesseract или EasyOCR для OCR, Whisper для STT, и Piper TTS для голосового вывода.
Где сохраняются мои переведённые файлы?¶
Рядом с оригиналом по умолчанию, с суффиксом _translated_<src>_<tgt>
(например report_translated_en_fr.docx). Переопределите по функции
в Настройки → Общее → Путь хранения переводов.
Где хранятся мои настройки?¶
INI-файл по адресу:
| ОС | Путь |
|---|---|
| Linux | ~/.config/ai-translate/settings.ini |
| macOS | ~/Library/Preferences/ai-translate/settings.ini |
| Windows | %APPDATA%\ai-translate\settings.ini |
API-ключи живут в связке ключей ОС (не в INI). История переводов живёт в SQLite БД в директории данных.
Как обрабатываются мои данные?¶
- Local-first — текст никогда не покидает вашу машину, кроме случаев, когда вы вызываете облачный сервис LLM / OCR / STT / TTS.
- Без телеметрии — приложение не "звонит домой". Единственный исходящий запрос, который приложение делает само, — опциональная проверка обновлений GitHub Releases (toggle в Настройки → Общее); облачные backend'ы вызывают только своих поставщиков.
- API-ключи — хранятся в связке ключей ОС. Fallback десктопного приложения — INI в открытом виде, когда нет демона связки ключей.
Можно ли перевести Google Doc / страницу Notion?¶
Не напрямую. Сначала экспортируйте в .docx, переведите, затем
импортируйте переведённый файл обратно. То же для Notion (экспорт
Markdown / HTML), Confluence (экспорт .docx) и т. д.
Выбор моделей / движков¶
Какую LLM-модель использовать?¶
Для большинства пользователей:
- Любой вариант Gemini Flash — бесплатный уровень, быстро,
удивительно хорошо. Используйте для повседневных переводов. Имена
выглядят как
gemini-2.5-flash,gemini-3-flash-previewи т. д., в зависимости от текущей доступности. - Любой вариант Gemini Pro — оплата за токен, более высокое качество. Используйте для важных документов (юридических, технических, для клиентов).
- Локальный Ollama с моделью 7B-13B — когда нужна офлайн / приватность.
Селектор модели по функции означает, что можно использовать быструю модель для chat-style перевода и зарезервировать дорогую для документов.
Какой OCR-движок использовать?¶
- Tesseract для чистого печатного текста в основных скриптах. Бесплатный, офлайн, быстрый.
- EasyOCR для не-латинских скриптов (особенно CJK) и шумных изображений.
- Google Cloud Vision для рукописного текста, смешанных скриптов и максимальной точности, когда можете заплатить.
Какой STT-метод использовать?¶
- Whisper local для офлайн / приватности.
- Soniox для записей с несколькими говорящими — метки спикеров делают round-trip в ваш SRT.
- Google Cloud STT для телефонии / медицинского аудио (их доменные модели хороши).
- Gemini Live для перевода speech-to-speech в реальном времени.
Какой TTS backend?¶
- Edge TTS для бесплатных высококачественных голосов.
- ElevenLabs для премиум / брендированных / клонированных голосов.
- Google Cloud TTS для голосов WaveNet в long-tail языках, где у Edge тонкое покрытие.
- Gemini TTS для бесплатных естественных prebuilt-голосов, переиспользующих ваш существующий API-ключ Gemini.
- Piper TTS когда нужен голосовой вывод офлайн / air-gapped. Компромисс: каждый язык требует одноразовой загрузки голоса ~25–60 МБ через Настройки → Голос → Piper TTS → Загрузить голоса, и 13 из 45 языков приложения не имеют Piper-голоса (они тихо возвращаются к Edge TTS).
Workflow¶
Как перевести целую папку?¶
Бросьте папку в drop-зону Перевод документа. Поддерживаемые файлы внутри (рекурсивно) попадают в очередь; всё остальное тихо пропускается. Есть лимит 100 файлов на drop; большие батчи → разделите на несколько drop'ов.
Можно ли паузить и возобновлять переводы?¶
Да. Закройте приложение в любой момент — задачи Pending / Translating возобновляются при следующем запуске. Per-task checkpointing означает, что страница 47 из 100 PDF не делается заново при возобновлении.
Можно ли редактировать перевод вручную?¶
Для Перевода текста — да, кликните в правую панель и пишите. Редактирование автоматически сохраняется в записи истории.
Для Перевода документа — откройте переведённый файл в обычном редакторе (Word, LibreOffice и т. д.) и редактируйте там. Приложение не делает round-trip правок обратно в историю.
Можно ли пакетно перевести список строк?¶
Используйте CLI:
Или для in-process строк (например UI-строк, извлечённых из кода),
вызовите MCP-инструмент translate_text со списком, или используйте
Python API напрямую:
from src.core.llm_engine import translate_text
out = translate_text(texts=["Hello", "World"], target_lang="French")
Глоссарий¶
Почему LLM не использует мой глоссарий?¶
Три вещи для проверки:
- Набор активен (галочка отмечена).
- Исходный термин в вашем глоссарии действительно встречается в исходном тексте (per-call сжатие отправляет LLM только записи, соответствующие тексту батча — экономит токены, но означает, что опечатка в исходном термине невидима).
- Модель достаточно сильна —
flash-liteиногда игнорирует подсказки, которые уважаютflashиpro.
Термины глоссария сопоставляются без учёта диакритики?¶
Да. И поиск по глоссарию, и строка поиска на странице Глоссарий
используют функцию нормализации, удаляющую диакритику и регистр.
Так что cafe, Café и CAFE все совпадают с записью, чей источник
Café.
Приватность¶
Собираете ли вы данные использования?¶
Нет. У приложения нет analytics SDK. Опциональная проверка обновлений опрашивает один endpoint GitHub Releases при старте; togglable в Настройки → Общее.
Безопасны ли мои API-ключи?¶
Они хранятся в связке ключей вашей ОС (Keychain на macOS, Credential Manager на Windows, Secret Service на Linux). Другие процессы не могут их прочитать без вашего явного разрешения. Fallback (когда нет демона связки ключей — обычно headless Linux-серверы) — INI в открытом виде в директории конфигурации пользователя; в этом режиме ключи защищены правами файла, но не зашифрованы криптографически.