إنشاء الترجمة (STT)¶

نسخ الصوت أو الفيديو إلى ترجمات موقوتة. يلتقط الكلام ويصدر SRT / VTT / ASS / SSA — مع ترجمة اختيارية في نفس التمريرة.

ما تحتاجه¶

FFmpeg على PATH لفك ترميز الصوت/الفيديو — راجع إعداد FFmpeg.
خلفية النسخ، واحدة من:
- faster-whisper — محلي، دون اتصال، مجاني (افتراضي؛ لا حاجة للإعداد)
- Google Cloud Speech-to-Text — سحابي، مدفوع، أكثر دقة على الصوت الصاخب. راجع إعداد Google Cloud.
- Soniox — سحابي، مدفوع، فوري وتمييز المتحدثين. راجع إعداد Soniox.

انقر إنشاء الترجمة في الشريط الجانبي.
أفلِت ملفًا أو أكثر من ملفات الصوت / الفيديو (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv).
اختر لغة المصدر (اللغة المنطوقة في الصوت) — اتركها على Auto-detect ليكتشفها Whisper.
اختر لغة الهدف — اختر No translation للحصول على نسخة عادية، أو أيًا من 45 لغة مدعومة لترجمة النسخة في نفس التمريرة.
اختر تنسيق الإخراج (SRT / VTT / ASS / SSA).
انقر إنشاء (أو Ctrl+Enter).
شاهد قائمة الانتظار. انقر فتح على الصف عند الانتهاء.

التنسيق	الأفضل
SRT	عالمي — تقريبًا كل مشغل يدعمه
VTT	عناصر `<video>` `<track>` في HTML5
ASS / SSA	كاريوكي، ترجمات منسقة، سير عمل fansub

التنسيقات الأربعة تذهب ذهابًا وإيابًا عبر نفس المحلل، لذا يمكنك تبديل تنسيق الإخراج عند إعادة الترجمة دون فقدان التوقيت.

التبديل في Settings → Subtitle:

النموذج	الحجم	السرعة	الدقة
`tiny`	~75 MB	سريع جدًا	منخفض
`base` (افتراضي)	~150 MB	سريع	معقول
`small`	~500 MB	متوسط	جيد
`medium`	~1.5 GB	بطيء	عالٍ
`large`	~3 GB	بطيء جدًا	الأفضل

تُنزَّل النماذج عند الاستخدام الأول وتُخزن مؤقتًا محليًا. على اتصال بطيء يبدو التشغيل الأول طويلاً؛ التشغيلات اللاحقة سريعة.

Backend	التكلفة	متصل؟	تمييز المتحدثين	اللغات
Whisper (محلي)	مجاني	لا	لا	99
Google Cloud STT	مدفوع	نعم	نعم (نموذج `latest_long`)	125+
Soniox	مدفوع	نعم	نعم (تسميات المتحدث لكل رمز)	60+

التبديل في Settings → Subtitle → STT method.

زر إيقاف — قاطع دفعة قيد التشغيل. الملفات المرتبة خلف النشطة تظل في قائمة الانتظار؛ يمكنك الاستئناف لاحقًا.
إعادة الإنشاء — انقر بزر الماوس الأيمن على إدخال Done لإعادة التشغيل بتنسيق / لغة / طريقة STT مختلفة.
صوت طويل — يتعامل Whisper مع ساعات من الصوت بشكل جيد؛ خصص ~دقيقة واحدة من المعالجة لكل دقيقة من الصوت على نموذج CPU base.