Сгенерировать голос (TTS)¶

Синтезируй файлы субтитров (с таймингом) или произвольный текст в аудио MP3 / WAV. Пять TTS-бэкендов: Edge TTS (бесплатный), ElevenLabs (высокое качество), Google Cloud TTS, Gemini TTS (бесплатный уровень) и Piper TTS (офлайн).

Что нужно¶

FFmpeg в PATH — см. Настройка FFmpeg.
TTS-бэкенд, один из:
- Edge TTS — бесплатный, без ключа, по умолчанию. Использует облачные голоса Microsoft Edge.
- ElevenLabs — платный, наивысшее качество. См. Настройка ElevenLabs.
- Google Cloud TTS — платный, очень хороший. См. Настройка Google Cloud.
- Gemini TTS — бесплатный уровень, естественные предустановленные голоса. Повторно использует твой существующий API-ключ Gemini из вкладки LLM — без дополнительной настройки.
- Piper TTS — полностью офлайн нейронный TTS. Без API-ключа, без сетевых вызовов — голоса представляют собой ONNX-файлы ~25–60 МБ, скачиваемые один раз через Настройки → Голос → Piper TTS → Скачать голоса сейчас. 32 из 45 языков приложения сегодня имеют голос Piper; языки без покрытия Piper молча откатываются на Edge TTS во время синтеза.

Пошагово¶

Кликни Сгенерировать голос в боковой панели.
Сбрось один или несколько файлов субтитров .srt / .vtt / .ass / .ssa.
Выбери Язык (автоопределяется из имени файла субтитров, когда возможно — например, _translated_en_ru.srt определяется как русский).
Выбери Пол голоса — Женский или Мужской.
Выбери Формат вывода — .mp3 (по умолчанию) или .wav.
Кликни Сгенерировать (или Ctrl+Enter).
Открой строку, когда готово — воспроизводится в твоём стандартном аудиоприложении.

Вывод¶

Ты получаешь один аудиофайл с голосовыми дорожками, размещёнными в тайминге каждого субтитра. Тихие промежутки заполняют время между репликами, чтобы аудио оставалось синхронизированным с оригинальным таймингом.

Выбор TTS-бэкенда¶

Бэкенд	Стоимость	Голоса	Заметки
Edge TTS	Бесплатно	Сотни, все основные языки	По умолчанию. Без настройки.
ElevenLabs	Платно (~$5/мес начальный уровень)	Премиум нейронные голоса, клонирование голоса	Наивысшее качество. ID голоса задаётся в Настройки → Сервис.
Google Cloud TTS	Платно (~$4/М символов; 1 М бесплатно / месяц)	Голоса WaveNet / Studio в 50+ языках	Сильные голоса WaveNet для европейских языков. По умолчанию сервер выбирает голос на основе языка + пола.
Gemini TTS	Бесплатный уровень (применяются квоты Developer API)	Естественные предустановленные голоса в 24+ языках — `Kore` (женский по умолчанию) / `Puck` (мужской по умолчанию)	Повторно использует твой API-ключ Gemini из вкладки LLM. Вывод за вызов ограничен ~30 с; длинные тексты автоматически разделяются на границах предложений.
Piper TTS	Бесплатно, офлайн	Нейронные голоса в 32 из 45 языков приложения	Без ключа, без сети. Голос для языка скачивается по требованию из Настройки → Голос → Piper TTS → Скачать голоса сейчас (~25–60 МБ каждый). Pre-flight ловит отсутствующий голос до начала работы.

Переключай в Настройки → Голос → Метод TTS.

Особенности Piper TTS¶

Piper — единственный полностью офлайн TTS-бэкенд в приложении. Несколько вещей, которые нужно знать:

Диалог библиотеки голосов — открой через Настройки → Голос → Piper TTS → Скачать голоса сейчас. Каждая строка языка показывает кнопку загрузки Женский голос и / или Мужской голос (некоторые языки одного пола). Голоса берутся из каталога HuggingFace rhasspy/piper-voices.
Покрытие — 32 из 45 языков приложения имеют голос Piper. 13 без покрытия (белорусский, бенгальский, китайский (традиционный), хорватский, эстонский, иврит, японский, кхмерский, корейский, литовский, малайский, монгольский, тайский) молча откатываются на Edge TTS во время синтеза, поэтому синтез никогда не падает жёстко на отсутствующем голосе.
Разрешение пола — когда ты выбираешь Женский, движок сначала пробует женский голос для этого языка; если существует только мужской голос, он использует его вместо (и наоборот). Логируется на уровне INFO.
Pre-flight шлюз — до начала прогона Голос страница проверяет, что голос Piper для языка находится на диске. Если отсутствует, ты получаешь модальный диалог с кнопкой Открыть настройки, которая ведёт тебя прямо в библиотеку голосов, чтобы скачать его без потери очереди.

Особенности Gemini TTS¶

Gemini TTS использует gemini-2.5-flash-preview-tts через Developer API. Несколько вещей, которые нужно знать:

Выбор голоса сегодня по полу — Женский маппится на Kore, Мужской на Puck. Оба — чистые, нейтральные голоса, которые работают на разных языках, не звуча слишком характерно.
Лимит длины вывода — каждый вызов API Gemini возвращает не более ~30 с речи. Приложение разбивает входной текст под _GEMINI_TTS_MAX_BYTES (~2000 байт ≈ 30 с) на границах предложений, затем конкатенирует куски через FFmpeg. Ты не столкнёшься с обрезанием на обычном тексте субтитров.
Аудио формат — Gemini выдаёт сырой PCM на 24 кГц моно s16le; приложение транскодирует по куску в MP3 (или WAV, если ты выбрал) так, чтобы финальный файл соответствовал твоему выбранному формату вывода.
Vertex AI пока не поддерживается для TTS — даже если твоя вкладка LLM настроена на Vertex, Gemini TTS всё ещё нужен Developer API-ключ. Приложение заранее выбрасывает AUTH_ERROR при отсутствии.

Модели ElevenLabs¶

Три модели выставлены:

Модель	Задержка	Качество	Использовать для
`eleven_multilingual_v2` (по умолч.)	Средняя	Высокое	Общий TTS
`eleven_v3`	Средняя	Наивысшее	Студия / продакшн
`eleven_flash_v2_5`	Низкая	Хорошее	Реальное время / режим Live

Настрой в Настройки → Голос → Модель ElevenLabs.

Советы¶

Перегенерировать

Правый клик по строке → Перегенерировать, чтобы поменять пол голоса / метод TTS / формат без перезапуска перевода.

Pre-flight проверки

Страница проверяет API-ключ ElevenLabs (когда выбран) и доступность FFmpeg перед началом. Ты увидишь дружелюбный диалог, если чего-то не хватает.

Stop атомарен

Нажми Stop во время синтеза, и ты не получишь полу-записанный MP3 в выходной директории — файл сначала записывается во временное место, затем перемещается на место только при успехе.

Горячие клавиши¶

Сочетание	Действие
`Ctrl+Enter`	Сгенерировать
`Ctrl+O`	Обзор
`Ctrl+F`	Фокус на поиск истории