สร้างคำบรรยาย (STT)¶

ถอดเสียงหรือวิดีโอเป็นคำบรรยายที่มีจังหวะเวลา จับการพูดและส่ง SRT / VTT / ASS / SSA — พร้อมการแปลที่เป็นทางเลือกในรอบเดียวกัน

สิ่งที่คุณต้องการ¶

FFmpeg บน PATH สำหรับการถอดรหัสเสียง/วิดีโอ — ดู การตั้งค่า FFmpeg
backend ถอดเสียง หนึ่งใน:
- faster-whisper — ในเครื่อง, ออฟไลน์, ฟรี (ค่าเริ่มต้น; ไม่ต้องตั้งค่า)
- Google Cloud Speech-to-Text — คลาวด์, เสียเงิน, แม่นยำกว่า บนเสียงที่มีเสียงรบกวน ดู การตั้งค่า Google Cloud
- Soniox — คลาวด์, เสียเงิน, เรียลไทม์และการแยกผู้พูด ดู การตั้งค่า Soniox

คลิก สร้างคำบรรยาย ในแถบด้านข้าง
drop ไฟล์เสียง / วิดีโอหนึ่งไฟล์ขึ้นไป (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv)
เลือก ภาษาต้นทาง (ภาษา ที่พูด ในเสียง) — ปล่อยที่ Auto-detect เพื่อให้ Whisper หาคำตอบ
เลือก ภาษาเป้าหมาย — เลือก No translation สำหรับการถอด เสียงธรรมดา หรือเลือกภาษาที่รองรับ 45 ภาษาเพื่อให้ได้ถอดเสียง ที่แปลในรอบเดียวกัน
เลือก รูปแบบเอาต์พุต (SRT / VTT / ASS / SSA)
คลิก สร้าง (หรือ Ctrl+Enter)
ดูคิว คลิก เปิด บนแถวเมื่อเสร็จ

รูปแบบ	ดีที่สุดสำหรับ
SRT	สากล — เกือบทุกผู้เล่นรองรับ
VTT	องค์ประกอบ HTML5 `<video>` `<track>`
ASS / SSA	คาราโอเกะ, คำบรรยายที่จัดสไตล์, เวิร์กโฟลว์ fansub

ทั้งสี่รูปแบบ round-trip ผ่าน parser เดียวกัน ดังนั้นคุณสามารถ สลับรูปแบบเอาต์พุตเมื่อ re-translate โดยไม่สูญเสียจังหวะเวลา

สลับใน Settings → Subtitle:

โมเดล	ขนาด	ความเร็ว	ความแม่นยำ
`tiny`	~75 MB	เร็วมาก	ต่ำ
`base` (ค่าเริ่มต้น)	~150 MB	เร็ว	พอใช้
`small`	~500 MB	ปานกลาง	ดี
`medium`	~1.5 GB	ช้า	สูง
`large`	~3 GB	ช้ามาก	ดีที่สุด

โมเดลดาวน์โหลดเมื่อใช้ครั้งแรกและแคชในเครื่อง บนการเชื่อมต่อช้า การรันครั้งแรกรู้สึกนาน; การรันถัดไปเร็ว

Backend	ราคา	ออนไลน์?	การแยกผู้พูด	ภาษา
Whisper (ในเครื่อง)	ฟรี	ไม่	ไม่	99
Google Cloud STT	เสียเงิน	ใช่	ใช่ (โมเดล `latest_long`)	125+
Soniox	เสียเงิน	ใช่	ใช่ (ป้ายผู้พูดต่อ token)	60+

สลับใน Settings → Subtitle → STT method

ปุ่มหยุด — ขัดจังหวะ batch ที่กำลังทำงาน ไฟล์ที่อยู่ในคิว ข้างหลัง active ยังคงอยู่ในคิว; คุณสามารถดำเนินการต่อในภายหลัง
สร้างใหม่ — คลิกขวารายการ Done เพื่อรันใหม่ด้วยรูปแบบ / ภาษา / วิธี STT ที่แตกต่างกัน
เสียงยาว — Whisper จัดการเสียงเป็นชั่วโมงได้ดี; งบประมาณ ~1 นาทีของการประมวลผลต่อ 1 นาทีของเสียงในโมเดล CPU base