ข้ามไปที่เนื้อหา

พากย์เสียงวิดีโอ

ไปป์ไลน์เต็มรูปแบบ STT → Translate → TTS → Mix ที่สร้างไฟล์ วิดีโอในภาษาอื่นพร้อมแทนที่ track เสียง เสียงต้นฉบับถูกทิ้ง; track พากย์เสียงใหม่จับเวลาให้ตรงกับคำบรรยาย

สิ่งที่คุณต้องการ

  • FFmpeg บน PATH — ดู การตั้งค่า FFmpeg
  • backend STT (ค่าเริ่มต้นเป็น Whisper ในเครื่อง ไม่ต้องตั้งค่า)
  • backend TTS — Edge TTS (ค่าเริ่มต้น), ElevenLabs, Google Cloud TTS, Gemini TTS หรือ Piper TTS (ออฟไลน์เต็มรูปแบบ; ดาวน์โหลด เสียงต่อภาษาครั้งเดียวผ่าน Settings → Voice → Piper TTS → Download voices now)
  • LLM ที่กำหนดค่าสำหรับขั้นตอนแปล

ทีละขั้นตอน

  1. คลิก พากย์เสียง ในแถบด้านข้าง
  2. drop ไฟล์วิดีโอหนึ่งไฟล์ขึ้นไป (.mp4, .webm, .mkv, .avi, .mov, .wmv)
  3. เลือก ภาษาต้นทาง (ภาษา ที่พูด ในวิดีโอ) และ ภาษาเป้าหมาย ที่จะพากย์
  4. คลิก เริ่มพากย์เสียง (Ctrl+Enter)
  5. ดูความคืบหน้าต่อ task ในตารางประวัติ มันเคลื่อนผ่านสี่ขั้นตอน:
ขั้นตอน ช่วง กำลังเกิดอะไรขึ้น
STT 5–25% ถอดเสียงต้นทาง
แปล 25–50% LLM แปลแต่ละบรรทัดคำบรรยาย
TTS 50–90% สังเคราะห์เสียงภาษาเป้าหมายสำหรับแต่ละบรรทัด
ผสม 90–100% FFmpeg แทนที่ track เสียง
  1. เมื่อเสร็จสมบูรณ์ คลิก เปิด บนแถวเพื่อเล่นวิดีโอที่พากย์แล้ว

เอาต์พุต

สำหรับแต่ละวิดีโออินพุต คุณจะได้รับสี่ไฟล์ในไดเร็กทอรีเอาต์พุต:

movie.mp4
movie_dubbed_en_fr.mp4              ← วิดีโอที่พากย์
movie_subtitle_en.srt               ← คำบรรยายภาษาต้นฉบับ
movie_subtitle_fr.srt               ← คำบรรยายที่แปล
movie_voice_fr.mp3                  ← track เสียงที่สังเคราะห์

กลับมาทำงานต่อหลังหยุด / crash

ไปป์ไลน์ checkpoint หลังแต่ละขั้นตอน หากคุณกด Stop ออกจากแอป หรือ crash การกด Continue บนแถวจะกลับมาทำงานต่อจากขั้นตอนที่ เสร็จสมบูรณ์ล่าสุด — คุณไม่ต้องจ่ายซ้ำสำหรับ STT หรือการแปลถ้ามัน ทำเสร็จแล้ว

คลิกขวารายการ Done / Failed สำหรับตัวเลือกเหล่านี้:

  • Continue — กลับมาทำงานต่อจาก checkpoint ล่าสุดโดยไม่ถามใหม่
  • Re-dub — เปิดตัวเลือกภาษาอีกครั้ง; หากคุณเลือกเป้าหมายใหม่ checkpoint แปลและ TTS จะถูก drop (คุณไม่ต้องจ่ายซ้ำสำหรับ STT) เลือกเป้าหมายเดียวกันจะ rerun อย่างมีประสิทธิภาพจาก checkpoint ล่าสุด เหมือน Continue
  • Open — เล่นวิดีโอที่พากย์

ข้อควรระวัง

Lip sync

การพากย์ตรงกับ เวลา ของเสียงต้นทาง ไม่ใช่การเคลื่อนไหวของ ริมฝีปาก บรรทัดที่แปลที่ยาวกว่าต้นฉบับมากจะฟังดูรีบ; บรรทัด ที่สั้นกว่ามากจะทิ้งความเงียบ สำหรับการพากย์ระดับมืออาชีพ คุณ มักจะ re-time ด้วยตนเองหลังจากผ่านนี้ — นั่นเป็นฟีเจอร์ในอนาคต

การตรวจสอบ pre-flight

หน้าตรวจสอบ FFmpeg + คีย์ของ TTS backend ของคุณก่อนเริ่ม คีย์ หาย → dialog ที่เป็นมิตร, ไม่มี dub ครึ่งทาง ด้วย Piper TTS ที่เลือก มันยังตรวจสอบว่าเสียง Piper ต่อภาษาอยู่บนดิสก์; เสียงหาย → modal dialog พร้อมปุ่ม Open Settings ที่นำคุณ ไปยังห้องสมุดเสียง ดังนั้นคุณไม่เผาเวลา STT + แปลเพียงเพื่อ ล้มเหลวที่ขั้นตอน TTS

เปลี่ยนภาษาเป้าหมาย

ใน re-target ไปป์ไลน์ drop checkpoint แปล + TTS (เนื้อหาของ มันไม่ถูกต้องสำหรับภาษาใหม่) แต่เก็บ checkpoint STT — คุณ ประหยัดต้นทุนการถอดเสียง

ทางลัด

ทางลัด การกระทำ
Ctrl+Enter เริ่มพากย์เสียง
Ctrl+O เรียกดู
Ctrl+F โฟกัสค้นหาประวัติ
Ctrl+P หยุดคิวที่ใช้งาน
Ctrl+G ดำเนินคิวที่ใช้งานต่อ

Ctrl+P / Ctrl+G ถูกระงับเมื่อ text-input มีโฟกัส เพื่อไม่ให้ ขัดแย้งกับการพิมพ์