พากย์เสียงวิดีโอ¶
ไปป์ไลน์เต็มรูปแบบ STT → Translate → TTS → Mix ที่สร้างไฟล์ วิดีโอในภาษาอื่นพร้อมแทนที่ track เสียง เสียงต้นฉบับถูกทิ้ง; track พากย์เสียงใหม่จับเวลาให้ตรงกับคำบรรยาย
สิ่งที่คุณต้องการ¶
- FFmpeg บน
PATH— ดู การตั้งค่า FFmpeg - backend STT (ค่าเริ่มต้นเป็น Whisper ในเครื่อง ไม่ต้องตั้งค่า)
- backend TTS — Edge TTS (ค่าเริ่มต้น), ElevenLabs, Google Cloud TTS, Gemini TTS หรือ Piper TTS (ออฟไลน์เต็มรูปแบบ; ดาวน์โหลด เสียงต่อภาษาครั้งเดียวผ่าน Settings → Voice → Piper TTS → Download voices now)
- LLM ที่กำหนดค่าสำหรับขั้นตอนแปล
ทีละขั้นตอน¶
- คลิก พากย์เสียง ในแถบด้านข้าง
- drop ไฟล์วิดีโอหนึ่งไฟล์ขึ้นไป (
.mp4,.webm,.mkv,.avi,.mov,.wmv) - เลือก ภาษาต้นทาง (ภาษา ที่พูด ในวิดีโอ) และ ภาษาเป้าหมาย ที่จะพากย์
- คลิก เริ่มพากย์เสียง (
Ctrl+Enter) - ดูความคืบหน้าต่อ task ในตารางประวัติ มันเคลื่อนผ่านสี่ขั้นตอน:
| ขั้นตอน | ช่วง | กำลังเกิดอะไรขึ้น |
|---|---|---|
| STT | 5–25% | ถอดเสียงต้นทาง |
| แปล | 25–50% | LLM แปลแต่ละบรรทัดคำบรรยาย |
| TTS | 50–90% | สังเคราะห์เสียงภาษาเป้าหมายสำหรับแต่ละบรรทัด |
| ผสม | 90–100% | FFmpeg แทนที่ track เสียง |
- เมื่อเสร็จสมบูรณ์ คลิก เปิด บนแถวเพื่อเล่นวิดีโอที่พากย์แล้ว
เอาต์พุต¶
สำหรับแต่ละวิดีโออินพุต คุณจะได้รับสี่ไฟล์ในไดเร็กทอรีเอาต์พุต:
movie.mp4
movie_dubbed_en_fr.mp4 ← วิดีโอที่พากย์
movie_subtitle_en.srt ← คำบรรยายภาษาต้นฉบับ
movie_subtitle_fr.srt ← คำบรรยายที่แปล
movie_voice_fr.mp3 ← track เสียงที่สังเคราะห์
กลับมาทำงานต่อหลังหยุด / crash¶
ไปป์ไลน์ checkpoint หลังแต่ละขั้นตอน หากคุณกด Stop ออกจากแอป หรือ crash การกด Continue บนแถวจะกลับมาทำงานต่อจากขั้นตอนที่ เสร็จสมบูรณ์ล่าสุด — คุณไม่ต้องจ่ายซ้ำสำหรับ STT หรือการแปลถ้ามัน ทำเสร็จแล้ว
คลิกขวารายการ Done / Failed สำหรับตัวเลือกเหล่านี้:
- Continue — กลับมาทำงานต่อจาก checkpoint ล่าสุดโดยไม่ถามใหม่
- Re-dub — เปิดตัวเลือกภาษาอีกครั้ง; หากคุณเลือกเป้าหมายใหม่ checkpoint แปลและ TTS จะถูก drop (คุณไม่ต้องจ่ายซ้ำสำหรับ STT) เลือกเป้าหมายเดียวกันจะ rerun อย่างมีประสิทธิภาพจาก checkpoint ล่าสุด เหมือน Continue
- Open — เล่นวิดีโอที่พากย์
ข้อควรระวัง¶
Lip sync
การพากย์ตรงกับ เวลา ของเสียงต้นทาง ไม่ใช่การเคลื่อนไหวของ ริมฝีปาก บรรทัดที่แปลที่ยาวกว่าต้นฉบับมากจะฟังดูรีบ; บรรทัด ที่สั้นกว่ามากจะทิ้งความเงียบ สำหรับการพากย์ระดับมืออาชีพ คุณ มักจะ re-time ด้วยตนเองหลังจากผ่านนี้ — นั่นเป็นฟีเจอร์ในอนาคต
การตรวจสอบ pre-flight
หน้าตรวจสอบ FFmpeg + คีย์ของ TTS backend ของคุณก่อนเริ่ม คีย์ หาย → dialog ที่เป็นมิตร, ไม่มี dub ครึ่งทาง ด้วย Piper TTS ที่เลือก มันยังตรวจสอบว่าเสียง Piper ต่อภาษาอยู่บนดิสก์; เสียงหาย → modal dialog พร้อมปุ่ม Open Settings ที่นำคุณ ไปยังห้องสมุดเสียง ดังนั้นคุณไม่เผาเวลา STT + แปลเพียงเพื่อ ล้มเหลวที่ขั้นตอน TTS
เปลี่ยนภาษาเป้าหมาย
ใน re-target ไปป์ไลน์ drop checkpoint แปล + TTS (เนื้อหาของ มันไม่ถูกต้องสำหรับภาษาใหม่) แต่เก็บ checkpoint STT — คุณ ประหยัดต้นทุนการถอดเสียง
ทางลัด¶
| ทางลัด | การกระทำ |
|---|---|
Ctrl+Enter |
เริ่มพากย์เสียง |
Ctrl+O |
เรียกดู |
Ctrl+F |
โฟกัสค้นหาประวัติ |
Ctrl+P |
หยุดคิวที่ใช้งาน |
Ctrl+G |
ดำเนินคิวที่ใช้งานต่อ |
Ctrl+P / Ctrl+G ถูกระงับเมื่อ text-input มีโฟกัส เพื่อไม่ให้
ขัดแย้งกับการพิมพ์