Generar voz (TTS)¶
Sintetiza archivos de subtítulos (con timing) o texto arbitrario a audio MP3 / WAV. Cinco backends TTS: Edge TTS (gratis), ElevenLabs (alta calidad), Google Cloud TTS, Gemini TTS (capa gratuita) y Piper TTS (offline).
Lo que necesitas¶
- FFmpeg en
PATH— ver Configuración FFmpeg. - Un backend TTS, uno de:
- Edge TTS — gratis, sin clave, predeterminado. Usa las voces cloud de Microsoft Edge.
- ElevenLabs — de pago, máxima calidad. Ver Configuración ElevenLabs.
- Google Cloud TTS — de pago, muy bueno. Ver Configuración Google Cloud.
- Gemini TTS — capa gratuita, voces predefinidas naturales. Reutiliza tu clave API de Gemini existente de la pestaña LLM — sin configuración extra.
- Piper TTS — TTS neuronal totalmente offline. Sin clave de API, sin llamadas de red — las voces son archivos ONNX de ~25–60 MB descargados una vez vía Configuración → Voz → Piper TTS → Descargar voces ahora. 32 de los 45 idiomas de la app tienen una voz Piper hoy; los idiomas sin cobertura Piper caen silenciosamente a Edge TTS al momento de la síntesis.
Paso a paso¶
- Haz clic en Generar voz en la barra lateral.
- Suelta uno o más archivos de subtítulos
.srt/.vtt/.ass/.ssa. - Elige el Idioma (auto-detectado del nombre de archivo del
subtítulo cuando es posible — p. ej.
_translated_en_es.srtse detecta como español). - Elige el Género de voz —
FemeninooMasculino. - Elige el Formato de salida —
.mp3(predeterminado) o.wav. - Haz clic en Generar (o
Ctrl+Enter). - Abre la fila cuando termine — se reproduce en tu app de audio predeterminada.
Salida¶
Obtienes un único archivo de audio con las pistas de voz colocadas en el timestamp de cada subtítulo. Los huecos silenciosos rellenan el tiempo entre cues para que el audio se mantenga sincronizado con el timing original.
Eligiendo un backend TTS¶
| Backend | Coste | Voces | Notas |
|---|---|---|---|
| Edge TTS | Gratis | Cientos, todos los idiomas mayores | Predeterminado. Sin configuración. |
| ElevenLabs | De pago (~$5/mes capa de entrada) | Voces neuronales premium, clonación de voz | Máxima calidad. ID de voz se establece en Configuración → Servicio. |
| Google Cloud TTS | De pago (~$4/M chars; 1 M gratis / mes) | Voces WaveNet / Studio en 50+ idiomas | Voces WaveNet fuertes para idiomas europeos. Por defecto el servidor elige una voz según idioma + género. |
| Gemini TTS | Capa gratuita (cuotas de Developer API aplican) | Voces predefinidas naturales en 24+ idiomas — Kore (femenino predet.) / Puck (masculino predet.) |
Reutiliza tu clave API de Gemini de la pestaña LLM. Salida por llamada limitada a ~30 s; los textos largos se cortan automáticamente en límites de oración. |
| Piper TTS | Gratis, offline | Voces neuronales en 32 de los 45 idiomas de la app | Sin clave, sin red. Voz por idioma descargada bajo demanda desde Configuración → Voz → Piper TTS → Descargar voces ahora (~25–60 MB cada una). El pre-flight atrapa una voz faltante antes de que empiece el trabajo. |
Cambia en Configuración → Voz → Método TTS.
Especificidades de Piper TTS¶
Piper es el único backend TTS totalmente offline en la app. Algunas cosas a saber:
- Diálogo de biblioteca de voces — abre vía Configuración → Voz
→ Piper TTS → Descargar voces ahora. Cada fila de idioma muestra
un botón de descarga
Voz femeninay / oVoz masculina(algunos idiomas son de un solo género). Las voces vienen del catálogo HuggingFace rhasspy/piper-voices. - Cobertura — 32 de los 45 idiomas de la app tienen una voz Piper. Los 13 sin cobertura (bielorruso, bengalí, chino (tradicional), croata, estonio, hebreo, japonés, jemer, coreano, lituano, malayo, mongol, tailandés) caen silenciosamente a Edge TTS al momento de la síntesis, así que la síntesis nunca falla duro en una voz faltante.
- Resolución de género — cuando eliges
Femenino, el motor primero intenta la voz femenina para ese idioma; si solo existe una voz masculina, la usa en su lugar (y viceversa). Registrado a nivel INFO. - Puerta pre-flight — antes de que comience una ejecución de Voz, la página verifica que la voz Piper por idioma esté en disco. Si falta, obtienes un diálogo modal con un botón Abrir Configuración que te lleva directamente a la biblioteca de voces para descargarla sin perder tu cola.
Especificidades de Gemini TTS¶
Gemini TTS usa gemini-2.5-flash-preview-tts vía la Developer API.
Algunas cosas a saber:
- Selección de voz es por género hoy — Femenino mapea a
Kore, Masculino aPuck. Ambas son voces claras y neutras que funcionan a través de idiomas sin sonar demasiado caracterizadas. - Tope de longitud de salida — cada llamada API Gemini devuelve
como máximo ~30 s de habla. La app trocea texto de entrada bajo
_GEMINI_TTS_MAX_BYTES(~2000 bytes ≈ 30 s) en límites de oración, luego concatena los trozos vía FFmpeg. No te encontrarás con truncado en texto de subtítulo normal. - Formato de audio — Gemini emite PCM crudo a 24 kHz mono s16le; la app transcodifica por trozo a MP3 (o WAV si lo elegiste) para que el archivo final coincida con tu formato de salida seleccionado.
- Vertex AI todavía no es compatible para TTS — incluso si tu
pestaña LLM está configurada para Vertex, Gemini TTS aún necesita
una clave API de Developer. La app lanza
AUTH_ERRORpor adelantado si falta.
Modelos ElevenLabs¶
Tres modelos están expuestos:
| Modelo | Latencia | Calidad | Usar para |
|---|---|---|---|
eleven_multilingual_v2 (predet.) |
Media | Alta | TTS general |
eleven_v3 |
Media | Máxima | Studio / producción |
eleven_flash_v2_5 |
Baja | Buena | Tiempo real / modo Live |
Configura en Configuración → Voz → Modelo ElevenLabs.
Consejos¶
Regenerar
Clic derecho en una fila → Regenerar para cambiar género de voz / método TTS / formato sin reejecutar la traducción.
Comprobaciones pre-flight
La página valida la clave API de ElevenLabs (cuando se selecciona) y la disponibilidad de FFmpeg antes de empezar. Verás un diálogo amigable si algo falta.
Stop es atómico
Pulsa Stop durante la síntesis y no obtendrás un MP3 medio escrito en el directorio de salida — el archivo se escribe en una ubicación temporal primero, luego se mueve en su lugar solo en caso de éxito.
Atajos¶
| Atajo | Acción |
|---|---|
Ctrl+Enter |
Generar |
Ctrl+O |
Examinar |
Ctrl+F |
Enfocar búsqueda de historial |