Voice बनाएँ (TTS)¶
Subtitle files (timing के साथ) या arbitrary text को MP3 / WAV audio में synthesize करें। पाँच TTS backends: Edge TTS (free), ElevenLabs (high quality), Google Cloud TTS, Gemini TTS (free tier), और Piper TTS (offline)।
आपको क्या चाहिए¶
PATHपर FFmpeg — देखें FFmpeg setup।- एक TTS backend, इनमें से एक:
- Edge TTS — free, no key, default। Microsoft Edge की cloud voices उपयोग करता है।
- ElevenLabs — paid, highest quality। देखें ElevenLabs setup।
- Google Cloud TTS — paid, very good। देखें Google Cloud setup।
- Gemini TTS — free tier, natural prebuilt voices। LLM tab से अपनी मौजूदा Gemini API key reuses करता है — कोई extra setup नहीं।
- Piper TTS — पूरी तरह से offline neural TTS। कोई API key नहीं, कोई network calls नहीं — voices ~25–60 MB ONNX files हैं जो Settings → Voice → Piper TTS → Download voices now के माध्यम से एक बार download होती हैं। आज ऐप की 45 languages में से 32 के पास Piper voice है; Piper coverage के बिना languages synthesis time पर silently Edge TTS पर fall back करती हैं।
Step-by-step¶
- Sidebar में Voice बनाएँ क्लिक करें।
- एक या अधिक
.srt/.vtt/.ass/.ssasubtitle files drop करें। - Language चुनें (जब possible हो subtitle filename से
auto-detected — जैसे
_translated_en_fr.srtको French के रूप में detect किया जाता है)। - Voice gender चुनें —
FemaleयाMale। - Output format चुनें —
.mp3(default) या.wav। - Generate क्लिक करें (या
Ctrl+Enter)। - Done होने पर row पर Open क्लिक करें — यह आपके default audio app में play होता है।
Output¶
आपको एक single audio file मिलती है जिसमें voice tracks हर subtitle के timestamp पर रखे होते हैं। Silent gaps cues के बीच का समय भरते हैं ताकि audio original timing के साथ sync में रहे।
TTS backend चुनना¶
| Backend | Cost | Voices | Notes |
|---|---|---|---|
| Edge TTS | Free | सैकड़ों, सभी प्रमुख languages | Default। कोई setup नहीं। |
| ElevenLabs | Paid (~$5/mo entry tier) | Premium neural voices, voice cloning | Highest quality। Voice ID Settings → Service में set होती है। |
| Google Cloud TTS | Paid (~$4/M chars; 1 M free / month) | 50+ languages में WaveNet / Studio voices | European languages के लिए strong WaveNet voices। Default रूप से server language + gender के आधार पर voice चुनता है। |
| Gemini TTS | Free tier (Developer API quotas apply) | 24+ languages में natural prebuilt voices — Kore (female default) / Puck (male default) |
LLM tab से आपकी Gemini API key reuses करता है। Per-call output ~30 s तक capped; long text सीमाओं पर automatically chunks होता है। |
| Piper TTS | Free, offline | ऐप की 45 languages में से 32 में neural voices | कोई key नहीं, कोई network नहीं। Per-language voice Settings → Voice → Piper TTS → Download voices now से on demand download (प्रत्येक ~25–60 MB)। Pre-flight काम शुरू होने से पहले missing voice catch करता है। |
Settings → Voice → TTS method में switch करें।
Piper TTS specifics¶
Piper ऐप में एकमात्र पूरी तरह से offline TTS backend है। कुछ चीजें जानने योग्य:
- Voice library dialog — Settings → Voice → Piper TTS →
Download voices now के माध्यम से खोलें। हर language row एक
Female voiceऔर / याMale voicedownload button दिखाता है (कुछ languages single-gender हैं)। Voices rhasspy/piper-voices HuggingFace catalogue से आती हैं। - Coverage — ऐप की 45 languages में से 32 के पास Piper voice है। Coverage के बिना 13 (Belarusian, Bengali, Chinese (Traditional), Croatian, Estonian, Hebrew, Japanese, Khmer, Korean, Lithuanian, Malay, Mongolian, Thai) synthesis time पर silently Edge TTS पर fall back करते हैं ताकि synthesis missing voice पर hard fail कभी न हो।
- Gender resolution — जब आप
Femaleचुनते हैं, engine पहले उस language के लिए female voice आज़माता है; यदि केवल एक male voice exists है, तो वह उसका उपयोग करता है (और vice versa)। INFO level पर logged। - Pre-flight gate — Voice run शुरू होने से पहले, page check करता है कि per-language Piper voice disk पर है। यदि missing है, आपको एक Open Settings बटन के साथ modal dialog मिलता है जो आपको सीधे voice library में ले जाता है ताकि आप अपनी queue खोए बिना इसे download कर सकें।
Gemini TTS specifics¶
Gemini TTS Developer API के माध्यम से
gemini-2.5-flash-preview-tts का उपयोग करता है। कुछ चीजें जानने
योग्य:
- Voice selection आज gender द्वारा है — Female
Koreपर map करता है, MalePuckपर। दोनों clear, neutral voices हैं जो languages में बहुत character-y sound किए बिना काम करती हैं। - Output length cap — हर Gemini API call अधिकतम ~30 s of
speech लौटाता है। ऐप input text को
_GEMINI_TTS_MAX_BYTES(~2000 bytes ≈ 30 s) के नीचे sentence boundaries पर chunks करता है, फिर FFmpeg के माध्यम से chunks concatenate करता है। आप normal subtitle text पर truncation hit नहीं करेंगे। - Audio format — Gemini 24 kHz mono s16le पर raw PCM emit करता है; ऐप per-chunk MP3 (या यदि आपने चुना तो WAV) में transcode करता है ताकि final file आपके selected output format से match हो।
- Vertex AI अभी TTS के लिए support नहीं है — भले ही आपका LLM
tab Vertex के लिए configured हो, Gemini TTS को अभी भी एक
Developer API key चाहिए। Missing होने पर ऐप पहले से
AUTH_ERRORraise करता है।
ElevenLabs models¶
तीन models exposed हैं:
| Model | Latency | Quality | Use for |
|---|---|---|---|
eleven_multilingual_v2 (default) |
Medium | High | General TTS |
eleven_v3 |
Medium | Highest | Studio / production |
eleven_flash_v2_5 |
Low | Good | Real-time / Live mode |
Settings → Voice → ElevenLabs model में configure करें।
Tips¶
Re-generate
Translation को फिर से चलाए बिना voice gender / TTS method / format swap करने के लिए row पर right-click → Re-generate।
Pre-flight checks
Page शुरू करने से पहले ElevenLabs API key (जब selected) और FFmpeg availability validate करता है। यदि कुछ missing है तो आपको एक friendly dialog दिखेगा।
Stop atomic है
Synthesis के दौरान Stop दबाएँ और आपको output directory में एक half-written MP3 नहीं मिलेगा — file पहले एक temp location पर लिखी जाती है, फिर केवल success पर place में move होती है।
Shortcuts¶
| Shortcut | Action |
|---|---|
Ctrl+Enter |
Generate |
Ctrl+O |
Browse |
Ctrl+F |
History search पर focus |