Gerar voz (TTS)¶
Sintetize ficheiros de legenda (com timing) ou texto arbitrário em áudio MP3 / WAV. Cinco backends TTS: Edge TTS (gratuito), ElevenLabs (alta qualidade), Google Cloud TTS, Gemini TTS (camada gratuita) e Piper TTS (offline).
O que você precisa¶
- FFmpeg no
PATH— veja Definição do FFmpeg. - Um backend TTS, um destes:
- Edge TTS — gratuito, sem chave, padrão. Usa as vozes na nuvem do Microsoft Edge.
- ElevenLabs — pago, qualidade máxima. Veja Definição do ElevenLabs.
- Google Cloud TTS — pago, muito bom. Veja Definição do Google Cloud.
- Gemini TTS — camada gratuita, vozes pré-construídas naturais. Reutiliza sua chave API do Gemini existente da aba LLM — sem definição extra.
- Piper TTS — TTS neural totalmente offline. Sem chave de API, sem chamadas de rede — as vozes são ficheiros ONNX de ~25–60 MB descarregados uma vez via Definições → Voz → Piper TTS → Descarregar vozes agora. 32 dos 45 idiomas do app têm uma voz Piper hoje; idiomas sem cobertura Piper caem silenciosamente para Edge TTS no momento da síntese.
Passo a passo¶
- Clique em Gerar voz na barra lateral.
- Solte um ou mais ficheiros de legenda
.srt/.vtt/.ass/.ssa. - Escolha o Idioma (auto-detectado a partir do nome do ficheiro
de legenda quando possível — ex.
_translated_en_pt.srté detectado como português). - Escolha o Gênero da voz —
FemininoouMasculino. - Escolha o Formato de saída —
.mp3(padrão) ou.wav. - Clique em Gerar (ou
Ctrl+Enter). - Abra a linha quando concluído — toca no seu app de áudio padrão.
Saída¶
Você obtém um único ficheiro de áudio com as faixas de voz posicionadas no timestamp de cada legenda. Lacunas silenciosas preenchem o tempo entre cues para que o áudio permaneça em sincronia com o timing original.
Escolhendo um backend TTS¶
| Backend | Custo | Vozes | Notas |
|---|---|---|---|
| Edge TTS | Gratuito | Centenas, todos os idiomas principais | Padrão. Sem definição. |
| ElevenLabs | Pago (~$5/mês camada de entrada) | Vozes neurais premium, clonagem de voz | Qualidade máxima. ID da voz é definido em Definições → Serviço. |
| Google Cloud TTS | Pago (~$4/M caracteres; 1 M grátis / mês) | Vozes WaveNet / Studio em 50+ idiomas | Vozes WaveNet fortes para idiomas europeus. Por padrão o servidor escolhe uma voz com base em idioma + gênero. |
| Gemini TTS | Camada gratuita (cotas Developer API se aplicam) | Vozes pré-construídas naturais em 24+ idiomas — Kore (feminino padrão) / Puck (masculino padrão) |
Reutiliza sua chave API do Gemini da aba LLM. Saída por chamada limitada a ~30 s; textos longos divididos automaticamente em limites de frase. |
| Piper TTS | Gratuito, offline | Vozes neurais em 32 dos 45 idiomas do app | Sem chave, sem rede. Voz por idioma baixada sob demanda em Definições → Voz → Piper TTS → Descarregar vozes agora (~25–60 MB cada). Pre-flight pega uma voz faltante antes do trabalho começar. |
Mude em Definições → Voz → Método TTS.
Especificidades do Piper TTS¶
Piper é o único backend TTS totalmente offline no app. Algumas coisas a saber:
- Diálogo da biblioteca de vozes — abra via Definições →
Voz → Piper TTS → Descarregar vozes agora. Cada linha de idioma
mostra um botão de download
Voz femininae / ouVoz masculina(alguns idiomas são de gênero único). As vozes vêm do catálogo HuggingFace rhasspy/piper-voices. - Cobertura — 32 dos 45 idiomas do app têm uma voz Piper. Os 13 sem cobertura (bielorrusso, bengali, chinês (tradicional), croata, estoniano, hebraico, japonês, khmer, coreano, lituano, malaio, mongol, tailandês) caem silenciosamente para Edge TTS no momento da síntese, então a síntese nunca falha duramente em uma voz faltante.
- Resolução de gênero — quando você escolhe
Feminino, o motor primeiro tenta a voz feminina para esse idioma; se apenas uma voz masculina existir, ele usa essa em vez (e vice-versa). Registrado no nível INFO. - Portão pre-flight — antes de uma execução de Voz começar, a página verifica que a voz Piper por idioma está em disco. Se faltando, você obtém um diálogo modal com um botão Abrir Definições que te leva direto para a biblioteca de vozes para baixá-la sem perder sua fila.
Especificidades do Gemini TTS¶
Gemini TTS usa gemini-2.5-flash-preview-tts via a Developer API.
Algumas coisas a saber:
- Seleção de voz é por gênero hoje — Feminino mapeia para
Kore, Masculino paraPuck. Ambas são vozes claras, neutras que funcionam em vários idiomas sem soar muito caracterizadas. - Limite de comprimento de saída — cada chamada API Gemini
retorna no máximo ~30 s de fala. O app divide o texto de entrada
abaixo de
_GEMINI_TTS_MAX_BYTES(~2000 bytes ≈ 30 s) em limites de frase, então concatena os pedaços via FFmpeg. Você não vai encontrar truncamento em texto de legenda normal. - Formato de áudio — Gemini emite PCM bruto a 24 kHz mono s16le; o app transcoda por pedaço para MP3 (ou WAV se você escolheu) para que o ficheiro final corresponda ao seu formato de saída selecionado.
- Vertex AI ainda não é suportado para TTS — mesmo se sua aba
LLM estiver configurada para Vertex, Gemini TTS ainda precisa de
uma chave API Developer. O app levanta
AUTH_ERRORantecipadamente se faltando.
Modelos ElevenLabs¶
Três modelos são expostos:
| Modelo | Latência | Qualidade | Usar para |
|---|---|---|---|
eleven_multilingual_v2 (padrão) |
Média | Alta | TTS geral |
eleven_v3 |
Média | Máxima | Studio / produção |
eleven_flash_v2_5 |
Baixa | Boa | Tempo real / modo Live |
Configure em Definições → Voz → Modelo ElevenLabs.
Dicas¶
Re-gerar
Clique com o botão direito em uma linha → Re-gerar para trocar gênero da voz / método TTS / formato sem reexecutar a tradução.
Verificações pre-flight
A página valida a chave API ElevenLabs (quando selecionada) e a disponibilidade do FFmpeg antes de começar. Você verá um diálogo amigável se algo estiver faltando.
Stop é atômico
Pressione Stop durante a síntese e você não ficará com um MP3 semi-escrito no diretório de saída — o ficheiro é escrito em uma localização temporária primeiro, depois movido para o lugar apenas em sucesso.
Atalhos¶
| Atalho | Ação |
|---|---|
Ctrl+Enter |
Gerar |
Ctrl+O |
Procurar |
Ctrl+F |
Focar busca de histórico |