Gerar voz (TTS)¶
Sintetize arquivos de legenda (com timing) ou texto arbitrário em áudio MP3 / WAV. Cinco backends TTS: Edge TTS (gratuito), ElevenLabs (alta qualidade), Google Cloud TTS, Gemini TTS (camada gratuita) e Piper TTS (offline).
O que você precisa¶
- FFmpeg no
PATH— veja Configuração do FFmpeg. - Um backend TTS, um destes:
- Edge TTS — gratuito, sem chave, padrão. Usa as vozes na nuvem do Microsoft Edge.
- ElevenLabs — pago, qualidade máxima. Veja Configuração do ElevenLabs.
- Google Cloud TTS — pago, muito bom. Veja Configuração do Google Cloud.
- Gemini TTS — camada gratuita, vozes pré-construídas naturais. Reutiliza sua chave API do Gemini existente da aba LLM — sem configuração extra.
- Piper TTS — TTS neural totalmente offline. Sem chave de API, sem chamadas de rede — as vozes são arquivos ONNX de ~25–60 MB baixados uma vez via Configurações → Voz → Piper TTS → Baixar vozes agora. 32 dos 45 idiomas do app têm uma voz Piper hoje; idiomas sem cobertura Piper caem silenciosamente para Edge TTS no momento da síntese.
Passo a passo¶
- Clique em Gerar voz na barra lateral.
- Solte um ou mais arquivos de legenda
.srt/.vtt/.ass/.ssa. - Escolha o Idioma (auto-detectado a partir do nome do arquivo
de legenda quando possível — ex.
_translated_en_pt.srté detectado como português). - Escolha o Gênero da voz —
FemininoouMasculino. - Escolha o Formato de saída —
.mp3(padrão) ou.wav. - Clique em Gerar (ou
Ctrl+Enter). - Abra a linha quando concluído — toca no seu app de áudio padrão.
Saída¶
Você obtém um único arquivo de áudio com as faixas de voz posicionadas no timestamp de cada legenda. Lacunas silenciosas preenchem o tempo entre cues para que o áudio permaneça em sincronia com o timing original.
Escolhendo um backend TTS¶
| Backend | Custo | Vozes | Notas |
|---|---|---|---|
| Edge TTS | Gratuito | Centenas, todos os idiomas principais | Padrão. Sem configuração. |
| ElevenLabs | Pago (~$5/mês camada de entrada) | Vozes neurais premium, clonagem de voz | Qualidade máxima. ID da voz é definido em Configurações → Serviço. |
| Google Cloud TTS | Pago (~$4/M caracteres; 1 M grátis / mês) | Vozes WaveNet / Studio em 50+ idiomas | Vozes WaveNet fortes para idiomas europeus. Por padrão o servidor escolhe uma voz com base em idioma + gênero. |
| Gemini TTS | Camada gratuita (cotas Developer API se aplicam) | Vozes pré-construídas naturais em 24+ idiomas — Kore (feminino padrão) / Puck (masculino padrão) |
Reutiliza sua chave API do Gemini da aba LLM. Saída por chamada limitada a ~30 s; textos longos divididos automaticamente em limites de frase. |
| Piper TTS | Gratuito, offline | Vozes neurais em 32 dos 45 idiomas do app | Sem chave, sem rede. Voz por idioma baixada sob demanda em Configurações → Voz → Piper TTS → Baixar vozes agora (~25–60 MB cada). Pre-flight pega uma voz faltante antes do trabalho começar. |
Mude em Configurações → Voz → Método TTS.
Especificidades do Piper TTS¶
Piper é o único backend TTS totalmente offline no app. Algumas coisas a saber:
- Diálogo da biblioteca de vozes — abra via Configurações →
Voz → Piper TTS → Baixar vozes agora. Cada linha de idioma
mostra um botão de download
Voz femininae / ouVoz masculina(alguns idiomas são de gênero único). As vozes vêm do catálogo HuggingFace rhasspy/piper-voices. - Cobertura — 32 dos 45 idiomas do app têm uma voz Piper. Os 13 sem cobertura (bielorrusso, bengali, chinês (tradicional), croata, estoniano, hebraico, japonês, khmer, coreano, lituano, malaio, mongol, tailandês) caem silenciosamente para Edge TTS no momento da síntese, então a síntese nunca falha duramente em uma voz faltante.
- Resolução de gênero — quando você escolhe
Feminino, o motor primeiro tenta a voz feminina para esse idioma; se apenas uma voz masculina existir, ele usa essa em vez (e vice-versa). Registrado no nível INFO. - Portão pre-flight — antes de uma execução de Voz começar, a página verifica que a voz Piper por idioma está em disco. Se faltando, você obtém um diálogo modal com um botão Abrir Configurações que te leva direto para a biblioteca de vozes para baixá-la sem perder sua fila.
Especificidades do Gemini TTS¶
Gemini TTS usa gemini-2.5-flash-preview-tts via a Developer API.
Algumas coisas a saber:
- Seleção de voz é por gênero hoje — Feminino mapeia para
Kore, Masculino paraPuck. Ambas são vozes claras, neutras que funcionam em vários idiomas sem soar muito caracterizadas. - Limite de comprimento de saída — cada chamada API Gemini
retorna no máximo ~30 s de fala. O app divide o texto de entrada
abaixo de
_GEMINI_TTS_MAX_BYTES(~2000 bytes ≈ 30 s) em limites de frase, então concatena os pedaços via FFmpeg. Você não vai encontrar truncamento em texto de legenda normal. - Formato de áudio — Gemini emite PCM bruto a 24 kHz mono s16le; o app transcoda por pedaço para MP3 (ou WAV se você escolheu) para que o arquivo final corresponda ao seu formato de saída selecionado.
- Vertex AI ainda não é suportado para TTS — mesmo se sua aba
LLM estiver configurada para Vertex, Gemini TTS ainda precisa de
uma chave API Developer. O app levanta
AUTH_ERRORantecipadamente se faltando.
Modelos ElevenLabs¶
Três modelos são expostos:
| Modelo | Latência | Qualidade | Usar para |
|---|---|---|---|
eleven_multilingual_v2 (padrão) |
Média | Alta | TTS geral |
eleven_v3 |
Média | Máxima | Studio / produção |
eleven_flash_v2_5 |
Baixa | Boa | Tempo real / modo Live |
Configure em Configurações → Voz → Modelo ElevenLabs.
Dicas¶
Re-gerar
Clique direito em uma linha → Re-gerar para trocar gênero da voz / método TTS / formato sem reexecutar a tradução.
Verificações pre-flight
A página valida a chave API ElevenLabs (quando selecionada) e a disponibilidade do FFmpeg antes de começar. Você verá um diálogo amigável se algo estiver faltando.
Stop é atômico
Aperte Stop durante a síntese e você não ficará com um MP3 semi-escrito no diretório de saída — o arquivo é escrito em uma localização temporária primeiro, depois movido para o lugar apenas em sucesso.
Atalhos¶
| Atalho | Ação |
|---|---|
Ctrl+Enter |
Gerar |
Ctrl+O |
Procurar |
Ctrl+F |
Focar busca de histórico |