إنشاء الصوت (TTS)¶
اصطنع ملفات الترجمة (مع التوقيت) أو نصًا تعسفيًا إلى صوت MP3 / WAV. خمس خلفيات TTS: Edge TTS (مجاني)، ElevenLabs (جودة عالية)، Google Cloud TTS، Gemini TTS (مستوى مجاني)، وPiper TTS (دون اتصال).
ما تحتاجه¶
- FFmpeg على
PATH— راجع إعداد FFmpeg. - خلفية TTS، واحدة من:
- Edge TTS — مجاني، بدون مفتاح، افتراضي. يستخدم أصوات السحابة الخاصة بـ Microsoft Edge.
- ElevenLabs — مدفوع، جودة أعلى. راجع إعداد ElevenLabs.
- Google Cloud TTS — مدفوع، جيد جدًا. راجع إعداد Google Cloud.
- Gemini TTS — مستوى مجاني، أصوات طبيعية مسبقة الإعداد. يعيد استخدام مفتاح Gemini API الموجود من علامة تبويب LLM — لا حاجة لإعداد إضافي.
- Piper TTS — TTS عصبي دون اتصال بالكامل. لا مفتاح API، لا مكالمات شبكة — الأصوات هي ملفات ONNX بحجم ~25–60 MB يتم تنزيلها مرة واحدة عبر Settings → Voice → Piper TTS → Download voices now. 32 من 45 لغة في التطبيق لديها صوت Piper اليوم؛ اللغات بدون تغطية Piper تعود بصمت إلى Edge TTS وقت التركيب.
خطوة بخطوة¶
- انقر إنشاء الصوت في الشريط الجانبي.
- أفلِت ملفًا أو أكثر من ملفات الترجمة
.srt/.vtt/.ass/.ssa. - اختر اللغة (يتم اكتشافها تلقائيًا من اسم ملف الترجمة عند
الإمكان — مثل
_translated_en_fr.srtتُكتشف كـ Français). - اختر جنس الصوت —
FemaleأوMale. - اختر تنسيق الإخراج —
.mp3(افتراضي) أو.wav. - انقر إنشاء (أو
Ctrl+Enter). - عند الانتهاء، انقر فتح على الصف — يتم تشغيله في تطبيق الصوت الافتراضي الخاص بك.
الإخراج¶
تحصل على ملف صوت واحد مع مسارات الصوت موضوعة في الطابع الزمني لكل ترجمة. الفجوات الصامتة تملأ الوقت بين cues حتى يبقى الصوت متزامنًا مع التوقيت الأصلي.
اختيار خلفية TTS¶
| Backend | التكلفة | الأصوات | ملاحظات |
|---|---|---|---|
| Edge TTS | مجاني | المئات، جميع اللغات الرئيسية | الافتراضي. لا إعداد. |
| ElevenLabs | مدفوع (~$5/شهر مستوى الدخول) | أصوات عصبية متميزة، استنساخ صوت | جودة أعلى. تم تعيين معرف الصوت في Settings → Service. |
| Google Cloud TTS | مدفوع (~$4/M chars؛ 1 M مجاني / شهر) | أصوات WaveNet / Studio في 50+ لغة | أصوات WaveNet قوية للغات الأوروبية. افتراضيًا، يختار الخادم صوتًا بناءً على اللغة + الجنس. |
| Gemini TTS | مستوى مجاني (تطبق حصص Developer API) | أصوات طبيعية مسبقة الإعداد في 24+ لغة — Kore (افتراضي أنثى) / Puck (افتراضي ذكر) |
يعيد استخدام مفتاح Gemini API من علامة تبويب LLM. الإخراج لكل استدعاء محدود بـ ~30 ثانية؛ النصوص الطويلة تنقطع تلقائيًا عند حدود الجمل. |
| Piper TTS | مجاني، دون اتصال | أصوات عصبية في 32 من 45 لغة في التطبيق | لا مفتاح، لا شبكة. الصوت لكل لغة يُنزَّل عند الطلب من Settings → Voice → Piper TTS → Download voices now (~25–60 MB لكل واحد). يلتقط الفحص قبل التشغيل صوتًا مفقودًا قبل بدء العمل. |
التبديل في Settings → Voice → TTS method.
خصوصيات Piper TTS¶
Piper هو الخلفية الوحيدة TTS دون اتصال بالكامل في التطبيق. بعض الأشياء التي يجب معرفتها:
- حوار مكتبة الأصوات — افتح عبر Settings → Voice → Piper TTS
→ Download voices now. كل صف لغة يعرض زر تنزيل
Female voiceو/أوMale voice(بعض اللغات أحادية الجنس). تأتي الأصوات من كتالوج HuggingFace rhasspy/piper-voices. - التغطية — 32 من 45 لغة في التطبيق لديها صوت Piper. الـ 13 بدون تغطية (البيلاروسية، البنغالية، الصينية (التقليدية)، الكرواتية، الإستونية، العبرية، اليابانية، الخمير، الكورية، الليتوانية، الماليزية، المنغولية، التايلاندية) تعود بصمت إلى Edge TTS وقت التركيب حتى لا يفشل التركيب بشكل صعب على صوت مفقود.
- حل الجنس — عند اختيار
Female، يحاول المحرك أولاً الصوت الأنثوي لتلك اللغة؛ إذا كان هناك صوت ذكر فقط، فإنه يستخدمه بدلاً من ذلك (والعكس صحيح). مسجل على مستوى INFO. - بوابة قبل التشغيل — قبل بدء تشغيل Voice، تتحقق الصفحة من أن صوت Piper لكل لغة موجود على القرص. إذا كان مفقودًا، تحصل على حوار modal مع زر Open Settings يأخذك مباشرة إلى مكتبة الأصوات حتى تتمكن من تنزيله دون فقدان قائمة الانتظار.
خصوصيات Gemini TTS¶
يستخدم Gemini TTS gemini-2.5-flash-preview-tts عبر Developer
API. بعض الأشياء التي يجب معرفتها:
- اختيار الصوت هو حسب الجنس اليوم — Female يطابق
Kore، MalePuck. كلاهما أصوات واضحة ومحايدة تعمل عبر اللغات دون أن تبدو شخصية جدًا. - حد طول الإخراج — يُرجع كل استدعاء API لـ Gemini على الأكثر
~30 ثانية من الكلام. يقوم التطبيق بتقسيم نص الإدخال تحت
_GEMINI_TTS_MAX_BYTES(~2000 بايت ≈ 30 ثانية) عند حدود الجمل، ثم يقوم بتجميع القطع عبر FFmpeg. لن تواجه اقتصاصًا في نص ترجمة عادي. - تنسيق الصوت — يُصدر Gemini PCM خام عند 24 kHz mono s16le؛ يقوم التطبيق بترميز كل قطعة إلى MP3 (أو WAV إذا اخترت ذلك) بحيث يطابق الملف النهائي تنسيق الإخراج المحدد.
- Vertex AI ليس مدعومًا بعد لـ TTS — حتى إذا كانت علامة
تبويب LLM لديك مكوَّنة لـ Vertex، فإن Gemini TTS لا يزال يحتاج
إلى مفتاح Developer API. يرفع التطبيق
AUTH_ERRORمسبقًا إذا كان مفقودًا.
نماذج ElevenLabs¶
ثلاثة نماذج معروضة:
| النموذج | الكمون | الجودة | استخدم لـ |
|---|---|---|---|
eleven_multilingual_v2 (افتراضي) |
متوسط | عالٍ | TTS عام |
eleven_v3 |
متوسط | الأعلى | استوديو / إنتاج |
eleven_flash_v2_5 |
منخفض | جيد | الوقت الفعلي / وضع Live |
قم بالتكوين في Settings → Voice → ElevenLabs model.
نصائح¶
إعادة الإنشاء
انقر بزر الماوس الأيمن على صف ← Re-generate لتبديل جنس الصوت / طريقة TTS / التنسيق دون إعادة تشغيل الترجمة.
فحوصات قبل التشغيل
تتحقق الصفحة من مفتاح ElevenLabs API (عند تحديده) وتوافر FFmpeg قبل البدء. سترى حوارًا وديًا إذا كان أي شيء مفقودًا.
الإيقاف ذري
اضغط Stop أثناء التركيب ولن تحصل على MP3 مكتوب نصفيًا في دليل الإخراج — يُكتب الملف إلى موقع مؤقت أولاً، ثم يُنقل إلى مكانه فقط عند النجاح.
الاختصارات¶
| الاختصار | الإجراء |
|---|---|
Ctrl+Enter |
إنشاء |
Ctrl+O |
استعراض |
Ctrl+F |
التركيز على بحث السجل |