พากย์เสียงวิดีโอ¶

ไปป์ไลน์เต็มรูปแบบ STT → Translate → TTS → Mix ที่สร้างไฟล์ วิดีโอในภาษาอื่นพร้อมแทนที่ track เสียง เสียงต้นฉบับถูกทิ้ง; track พากย์เสียงใหม่จับเวลาให้ตรงกับคำบรรยาย

สิ่งที่คุณต้องการ¶

FFmpeg บน PATH — ดู การตั้งค่า FFmpeg
backend STT (ค่าเริ่มต้นเป็น Whisper ในเครื่อง ไม่ต้องตั้งค่า)
backend TTS — Edge TTS (ค่าเริ่มต้น), ElevenLabs, Google Cloud TTS, Gemini TTS หรือ Piper TTS (ออฟไลน์เต็มรูปแบบ; ดาวน์โหลด เสียงต่อภาษาครั้งเดียวผ่าน Settings → Voice → Piper TTS → Download voices now)
LLM ที่กำหนดค่าสำหรับขั้นตอนแปล

ทีละขั้นตอน¶

คลิก พากย์เสียง ในแถบด้านข้าง
drop ไฟล์วิดีโอหนึ่งไฟล์ขึ้นไป (.mp4, .webm, .mkv, .avi, .mov, .wmv)
เลือก ภาษาต้นทาง (ภาษา ที่พูด ในวิดีโอ) และ ภาษาเป้าหมาย ที่จะพากย์
คลิก เริ่มพากย์เสียง (Ctrl+Enter)
ดูความคืบหน้าต่อ task ในตารางประวัติ มันเคลื่อนผ่านสี่ขั้นตอน:

ขั้นตอน	ช่วง	กำลังเกิดอะไรขึ้น
STT	5–25%	ถอดเสียงต้นทาง
แปล	25–50%	LLM แปลแต่ละบรรทัดคำบรรยาย
TTS	50–90%	สังเคราะห์เสียงภาษาเป้าหมายสำหรับแต่ละบรรทัด
ผสม	90–100%	FFmpeg แทนที่ track เสียง

เมื่อเสร็จสมบูรณ์ คลิก เปิด บนแถวเพื่อเล่นวิดีโอที่พากย์แล้ว

เอาต์พุต¶

สำหรับแต่ละวิดีโออินพุต คุณจะได้รับสี่ไฟล์ในไดเร็กทอรีเอาต์พุต:

movie.mp4
movie_dubbed_en_fr.mp4              ← วิดีโอที่พากย์
movie_subtitle_en.srt               ← คำบรรยายภาษาต้นฉบับ
movie_subtitle_fr.srt               ← คำบรรยายที่แปล
movie_voice_fr.mp3                  ← track เสียงที่สังเคราะห์

กลับมาทำงานต่อหลังหยุด / crash¶

ไปป์ไลน์ checkpoint หลังแต่ละขั้นตอน หากคุณกด Stop ออกจากแอป หรือ crash การกด Continue บนแถวจะกลับมาทำงานต่อจากขั้นตอนที่ เสร็จสมบูรณ์ล่าสุด — คุณไม่ต้องจ่ายซ้ำสำหรับ STT หรือการแปลถ้ามัน ทำเสร็จแล้ว

คลิกขวารายการ Done / Failed สำหรับตัวเลือกเหล่านี้:

Continue — กลับมาทำงานต่อจาก checkpoint ล่าสุดโดยไม่ถามใหม่
Re-dub — เปิดตัวเลือกภาษาอีกครั้ง; หากคุณเลือกเป้าหมายใหม่ checkpoint แปลและ TTS จะถูก drop (คุณไม่ต้องจ่ายซ้ำสำหรับ STT) เลือกเป้าหมายเดียวกันจะ rerun อย่างมีประสิทธิภาพจาก checkpoint ล่าสุด เหมือน Continue
Open — เล่นวิดีโอที่พากย์

ข้อควรระวัง¶

Lip sync

การพากย์ตรงกับ เวลา ของเสียงต้นทาง ไม่ใช่การเคลื่อนไหวของ ริมฝีปาก บรรทัดที่แปลที่ยาวกว่าต้นฉบับมากจะฟังดูรีบ; บรรทัด ที่สั้นกว่ามากจะทิ้งความเงียบ สำหรับการพากย์ระดับมืออาชีพ คุณ มักจะ re-time ด้วยตนเองหลังจากผ่านนี้ — นั่นเป็นฟีเจอร์ในอนาคต

การตรวจสอบ pre-flight

หน้าตรวจสอบ FFmpeg + คีย์ของ TTS backend ของคุณก่อนเริ่ม คีย์ หาย → dialog ที่เป็นมิตร, ไม่มี dub ครึ่งทาง ด้วย Piper TTS ที่เลือก มันยังตรวจสอบว่าเสียง Piper ต่อภาษาอยู่บนดิสก์; เสียงหาย → modal dialog พร้อมปุ่ม Open Settings ที่นำคุณ ไปยังห้องสมุดเสียง ดังนั้นคุณไม่เผาเวลา STT + แปลเพียงเพื่อ ล้มเหลวที่ขั้นตอน TTS

เปลี่ยนภาษาเป้าหมาย

ใน re-target ไปป์ไลน์ drop checkpoint แปล + TTS (เนื้อหาของ มันไม่ถูกต้องสำหรับภาษาใหม่) แต่เก็บ checkpoint STT — คุณ ประหยัดต้นทุนการถอดเสียง

ทางลัด¶

ทางลัด	การกระทำ
`Ctrl+Enter`	เริ่มพากย์เสียง
`Ctrl+O`	เรียกดู
`Ctrl+F`	โฟกัสค้นหาประวัติ
`Ctrl+P`	หยุดคิวที่ใช้งาน
`Ctrl+G`	ดำเนินคิวที่ใช้งานต่อ

Ctrl+P / Ctrl+G ถูกระงับเมื่อ text-input มีโฟกัส เพื่อไม่ให้ ขัดแย้งกับการพิมพ์