ข้ามไปที่เนื้อหา

สร้างคำบรรยาย (STT)

ถอดเสียงหรือวิดีโอเป็นคำบรรยายที่มีจังหวะเวลา จับการพูดและส่ง SRT / VTT / ASS / SSA — พร้อมการแปลที่เป็นทางเลือกในรอบเดียวกัน

สิ่งที่คุณต้องการ

  • FFmpeg บน PATH สำหรับการถอดรหัสเสียง/วิดีโอ — ดู การตั้งค่า FFmpeg
  • backend ถอดเสียง หนึ่งใน:
    • faster-whisper — ในเครื่อง, ออฟไลน์, ฟรี (ค่าเริ่มต้น; ไม่ต้องตั้งค่า)
    • Google Cloud Speech-to-Text — คลาวด์, เสียเงิน, แม่นยำกว่า บนเสียงที่มีเสียงรบกวน ดู การตั้งค่า Google Cloud
    • Soniox — คลาวด์, เสียเงิน, เรียลไทม์และการแยกผู้พูด ดู การตั้งค่า Soniox

ทีละขั้นตอน

  1. คลิก สร้างคำบรรยาย ในแถบด้านข้าง
  2. drop ไฟล์เสียง / วิดีโอหนึ่งไฟล์ขึ้นไป (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv)
  3. เลือก ภาษาต้นทาง (ภาษา ที่พูด ในเสียง) — ปล่อยที่ Auto-detect เพื่อให้ Whisper หาคำตอบ
  4. เลือก ภาษาเป้าหมาย — เลือก No translation สำหรับการถอด เสียงธรรมดา หรือเลือกภาษาที่รองรับ 45 ภาษาเพื่อให้ได้ถอดเสียง ที่แปลในรอบเดียวกัน
  5. เลือก รูปแบบเอาต์พุต (SRT / VTT / ASS / SSA)
  6. คลิก สร้าง (หรือ Ctrl+Enter)
  7. ดูคิว คลิก เปิด บนแถวเมื่อเสร็จ

ตัวเลือกรูปแบบ

รูปแบบ ดีที่สุดสำหรับ
SRT สากล — เกือบทุกผู้เล่นรองรับ
VTT องค์ประกอบ HTML5 <video> <track>
ASS / SSA คาราโอเกะ, คำบรรยายที่จัดสไตล์, เวิร์กโฟลว์ fansub

ทั้งสี่รูปแบบ round-trip ผ่าน parser เดียวกัน ดังนั้นคุณสามารถ สลับรูปแบบเอาต์พุตเมื่อ re-translate โดยไม่สูญเสียจังหวะเวลา

ขนาดโมเดล Whisper

สลับใน Settings → Subtitle:

โมเดล ขนาด ความเร็ว ความแม่นยำ
tiny ~75 MB เร็วมาก ต่ำ
base (ค่าเริ่มต้น) ~150 MB เร็ว พอใช้
small ~500 MB ปานกลาง ดี
medium ~1.5 GB ช้า สูง
large ~3 GB ช้ามาก ดีที่สุด

โมเดลดาวน์โหลดเมื่อใช้ครั้งแรกและแคชในเครื่อง บนการเชื่อมต่อช้า การรันครั้งแรกรู้สึกนาน; การรันถัดไปเร็ว

เปรียบเทียบวิธี STT

Backend ราคา ออนไลน์? การแยกผู้พูด ภาษา
Whisper (ในเครื่อง) ฟรี ไม่ ไม่ 99
Google Cloud STT เสียเงิน ใช่ ใช่ (โมเดล latest_long) 125+
Soniox เสียเงิน ใช่ ใช่ (ป้ายผู้พูดต่อ token) 60+

สลับใน Settings → Subtitle → STT method

เคล็ดลับ

  • ปุ่มหยุด — ขัดจังหวะ batch ที่กำลังทำงาน ไฟล์ที่อยู่ในคิว ข้างหลัง active ยังคงอยู่ในคิว; คุณสามารถดำเนินการต่อในภายหลัง
  • สร้างใหม่ — คลิกขวารายการ Done เพื่อรันใหม่ด้วยรูปแบบ / ภาษา / วิธี STT ที่แตกต่างกัน
  • เสียงยาว — Whisper จัดการเสียงเป็นชั่วโมงได้ดี; งบประมาณ ~1 นาทีของการประมวลผลต่อ 1 นาทีของเสียงในโมเดล CPU base

ทางลัด

ทางลัด การกระทำ
Ctrl+Enter สร้าง
Ctrl+O เรียกดู
Ctrl+F โฟกัสค้นหาประวัติ