انتقل إلى المحتوى

إنشاء الترجمة (STT)

نسخ الصوت أو الفيديو إلى ترجمات موقوتة. يلتقط الكلام ويصدر SRT / VTT / ASS / SSA — مع ترجمة اختيارية في نفس التمريرة.

ما تحتاجه

  • FFmpeg على PATH لفك ترميز الصوت/الفيديو — راجع إعداد FFmpeg.
  • خلفية النسخ، واحدة من:
    • faster-whisper — محلي، دون اتصال، مجاني (افتراضي؛ لا حاجة للإعداد)
    • Google Cloud Speech-to-Text — سحابي، مدفوع، أكثر دقة على الصوت الصاخب. راجع إعداد Google Cloud.
    • Soniox — سحابي، مدفوع، فوري وتمييز المتحدثين. راجع إعداد Soniox.

خطوة بخطوة

  1. انقر إنشاء الترجمة في الشريط الجانبي.
  2. أفلِت ملفًا أو أكثر من ملفات الصوت / الفيديو (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv).
  3. اختر لغة المصدر (اللغة المنطوقة في الصوت) — اتركها على Auto-detect ليكتشفها Whisper.
  4. اختر لغة الهدف — اختر No translation للحصول على نسخة عادية، أو أيًا من 45 لغة مدعومة لترجمة النسخة في نفس التمريرة.
  5. اختر تنسيق الإخراج (SRT / VTT / ASS / SSA).
  6. انقر إنشاء (أو Ctrl+Enter).
  7. شاهد قائمة الانتظار. انقر فتح على الصف عند الانتهاء.

اختيار التنسيق

التنسيق الأفضل
SRT عالمي — تقريبًا كل مشغل يدعمه
VTT عناصر <video> <track> في HTML5
ASS / SSA كاريوكي، ترجمات منسقة، سير عمل fansub

التنسيقات الأربعة تذهب ذهابًا وإيابًا عبر نفس المحلل، لذا يمكنك تبديل تنسيق الإخراج عند إعادة الترجمة دون فقدان التوقيت.

حجم نموذج Whisper

التبديل في Settings → Subtitle:

النموذج الحجم السرعة الدقة
tiny ~75 MB سريع جدًا منخفض
base (افتراضي) ~150 MB سريع معقول
small ~500 MB متوسط جيد
medium ~1.5 GB بطيء عالٍ
large ~3 GB بطيء جدًا الأفضل

تُنزَّل النماذج عند الاستخدام الأول وتُخزن مؤقتًا محليًا. على اتصال بطيء يبدو التشغيل الأول طويلاً؛ التشغيلات اللاحقة سريعة.

مقارنة طرق STT

Backend التكلفة متصل؟ تمييز المتحدثين اللغات
Whisper (محلي) مجاني لا لا 99
Google Cloud STT مدفوع نعم نعم (نموذج latest_long) 125+
Soniox مدفوع نعم نعم (تسميات المتحدث لكل رمز) 60+

التبديل في Settings → Subtitle → STT method.

نصائح

  • زر إيقاف — قاطع دفعة قيد التشغيل. الملفات المرتبة خلف النشطة تظل في قائمة الانتظار؛ يمكنك الاستئناف لاحقًا.
  • إعادة الإنشاء — انقر بزر الماوس الأيمن على إدخال Done لإعادة التشغيل بتنسيق / لغة / طريقة STT مختلفة.
  • صوت طويل — يتعامل Whisper مع ساعات من الصوت بشكل جيد؛ خصص ~دقيقة واحدة من المعالجة لكل دقيقة من الصوت على نموذج CPU base.

الاختصارات

الاختصار الإجراء
Ctrl+Enter إنشاء
Ctrl+O استعراض
Ctrl+F التركيز على بحث السجل