Genera voce (TTS)¶
Sintetizza file di sottotitoli (con timing) o testo arbitrario in audio MP3 / WAV. Cinque backend TTS: Edge TTS (gratuito), ElevenLabs (alta qualità), Google Cloud TTS, Gemini TTS (livello gratuito) e Piper TTS (offline).
Cosa ti serve¶
- FFmpeg in
PATH— vedi Configurazione FFmpeg. - Un backend TTS, uno tra:
- Edge TTS — gratuito, senza chiave, predefinito. Usa le voci cloud di Microsoft Edge.
- ElevenLabs — a pagamento, qualità massima. Vedi Configurazione ElevenLabs.
- Google Cloud TTS — a pagamento, molto buono. Vedi Configurazione Google Cloud.
- Gemini TTS — livello gratuito, voci predefinite naturali. Riutilizza la tua chiave API Gemini esistente dalla scheda LLM — nessuna configurazione extra.
- Piper TTS — TTS neurale completamente offline. Senza chiave API, senza chiamate di rete — le voci sono file ONNX da ~25–60 MB scaricati una volta tramite Impostazioni → Voce → Piper TTS → Scarica voci ora. 32 delle 45 lingue dell'app hanno una voce Piper oggi; le lingue senza copertura Piper ricadono silenziosamente su Edge TTS al momento della sintesi.
Passo passo¶
- Clicca su Genera voce nella barra laterale.
- Rilascia uno o più file di sottotitoli
.srt/.vtt/.ass/.ssa. - Scegli la Lingua (rilevata automaticamente dal nome del file
del sottotitolo quando possibile — es.
_translated_en_it.srtè rilevato come italiano). - Scegli il Genere della voce —
FemminileoMaschile. - Scegli il Formato di output —
.mp3(predefinito) o.wav. - Clicca su Genera (o
Ctrl+Invio). - Apri la riga quando finito — viene riprodotto nella tua app audio predefinita.
Output¶
Ottieni un singolo file audio con le tracce vocali posizionate al timestamp di ogni sottotitolo. Spazi vuoti silenziosi riempiono il tempo tra i cue in modo che l'audio rimanga sincronizzato con il timing originale.
Scegliere un backend TTS¶
| Backend | Costo | Voci | Note |
|---|---|---|---|
| Edge TTS | Gratuito | Centinaia, tutte le lingue principali | Predefinito. Nessuna configurazione. |
| ElevenLabs | A pagamento (~$5/mese livello entry) | Voci neurali premium, clonazione vocale | Qualità massima. L'ID voce è impostato in Impostazioni → Servizio. |
| Google Cloud TTS | A pagamento (~$4/M caratteri; 1 M gratis / mese) | Voci WaveNet / Studio in 50+ lingue | Voci WaveNet forti per lingue europee. Per impostazione predefinita il server sceglie una voce in base a lingua + genere. |
| Gemini TTS | Livello gratuito (si applicano le quote Developer API) | Voci predefinite naturali in 24+ lingue — Kore (femminile predef.) / Puck (maschile predef.) |
Riutilizza la tua chiave API Gemini dalla scheda LLM. Output per chiamata limitato a ~30 s; testi lunghi divisi automaticamente ai confini di frase. |
| Piper TTS | Gratuito, offline | Voci neurali in 32 delle 45 lingue dell'app | Nessuna chiave, nessuna rete. Voce per lingua scaricata su richiesta da Impostazioni → Voce → Piper TTS → Scarica voci ora (~25–60 MB ciascuna). Il pre-flight cattura una voce mancante prima che il lavoro inizi. |
Cambia in Impostazioni → Voce → Metodo TTS.
Specificità Piper TTS¶
Piper è l'unico backend TTS completamente offline nell'app. Alcune cose da sapere:
- Finestra di dialogo della libreria voci — apri tramite
Impostazioni → Voce → Piper TTS → Scarica voci ora. Ogni riga di
lingua mostra un pulsante di download
Voce femminilee / oVoce maschile(alcune lingue sono mono-genere). Le voci vengono dal catalogo HuggingFace rhasspy/piper-voices. - Copertura — 32 delle 45 lingue dell'app hanno una voce Piper. Le 13 senza copertura (bielorusso, bengalese, cinese (tradizionale), croato, estone, ebraico, giapponese, khmer, coreano, lituano, malese, mongolo, thailandese) ricadono silenziosamente su Edge TTS al momento della sintesi, quindi la sintesi non fallisce mai duramente per una voce mancante.
- Risoluzione del genere — quando scegli
Femminile, il motore prova prima la voce femminile per quella lingua; se esiste solo una voce maschile, usa quella invece (e viceversa). Registrato a livello INFO. - Cancello pre-flight — prima che inizi un'esecuzione Voce, la pagina verifica che la voce Piper per la lingua sia su disco. Se manca, ottieni una finestra modale con un pulsante Apri impostazioni che ti porta direttamente alla libreria voci per scaricarla senza perdere la coda.
Specificità Gemini TTS¶
Gemini TTS usa gemini-2.5-flash-preview-tts tramite la Developer API.
Alcune cose da sapere:
- La selezione della voce è oggi per genere — Femminile mappa a
Kore, Maschile aPuck. Entrambe sono voci chiare, neutre che funzionano in tutte le lingue senza suonare troppo caratterizzate. - Limite di lunghezza dell'output — ogni chiamata API Gemini
restituisce al massimo ~30 s di parlato. L'app suddivide il testo
in input sotto
_GEMINI_TTS_MAX_BYTES(~2000 byte ≈ 30 s) ai confini di frase, poi concatena i pezzi tramite FFmpeg. Non incontrerai troncamento su testo di sottotitolo normale. - Formato audio — Gemini emette PCM grezzo a 24 kHz mono s16le; l'app transcodifica per pezzo a MP3 (o WAV se l'hai scelto) in modo che il file finale corrisponda al tuo formato di output selezionato.
- Vertex AI non è ancora supportato per TTS — anche se la tua
scheda LLM è configurata per Vertex, Gemini TTS ha ancora bisogno
di una chiave API Developer. L'app solleva
AUTH_ERRORin anticipo se manca.
Modelli ElevenLabs¶
Tre modelli sono esposti:
| Modello | Latenza | Qualità | Da usare per |
|---|---|---|---|
eleven_multilingual_v2 (predef.) |
Media | Alta | TTS generale |
eleven_v3 |
Media | Massima | Studio / produzione |
eleven_flash_v2_5 |
Bassa | Buona | Tempo reale / modalità Live |
Configura in Impostazioni → Voce → Modello ElevenLabs.
Suggerimenti¶
Rigenera
Tasto destro su una riga → Rigenera per scambiare genere della voce / metodo TTS / formato senza rieseguire la traduzione.
Verifiche pre-flight
La pagina convalida la chiave API ElevenLabs (quando selezionata) e la disponibilità di FFmpeg prima di iniziare. Vedrai una finestra di dialogo amichevole se manca qualcosa.
Stop è atomico
Premi Stop durante la sintesi e non otterrai un MP3 scritto a metà nella directory di output — il file viene scritto prima in una posizione temporanea, poi spostato in posizione solo in caso di successo.
Scorciatoie¶
| Scorciatoia | Azione |
|---|---|
Ctrl+Invio |
Genera |
Ctrl+O |
Sfoglia |
Ctrl+F |
Focalizza ricerca cronologia |