สร้างคำบรรยาย (STT)¶
ถอดเสียงหรือวิดีโอเป็นคำบรรยายที่มีจังหวะเวลา จับการพูดและส่ง SRT / VTT / ASS / SSA — พร้อมการแปลที่เป็นทางเลือกในรอบเดียวกัน
สิ่งที่คุณต้องการ¶
- FFmpeg บน
PATHสำหรับการถอดรหัสเสียง/วิดีโอ — ดู การตั้งค่า FFmpeg - backend ถอดเสียง หนึ่งใน:
- faster-whisper — ในเครื่อง, ออฟไลน์, ฟรี (ค่าเริ่มต้น; ไม่ต้องตั้งค่า)
- Google Cloud Speech-to-Text — คลาวด์, เสียเงิน, แม่นยำกว่า บนเสียงที่มีเสียงรบกวน ดู การตั้งค่า Google Cloud
- Soniox — คลาวด์, เสียเงิน, เรียลไทม์และการแยกผู้พูด ดู การตั้งค่า Soniox
ทีละขั้นตอน¶
- คลิก สร้างคำบรรยาย ในแถบด้านข้าง
- drop ไฟล์เสียง / วิดีโอหนึ่งไฟล์ขึ้นไป (
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv) - เลือก ภาษาต้นทาง (ภาษา ที่พูด ในเสียง) — ปล่อยที่
Auto-detectเพื่อให้ Whisper หาคำตอบ - เลือก ภาษาเป้าหมาย — เลือก
No translationสำหรับการถอด เสียงธรรมดา หรือเลือกภาษาที่รองรับ 45 ภาษาเพื่อให้ได้ถอดเสียง ที่แปลในรอบเดียวกัน - เลือก รูปแบบเอาต์พุต (SRT / VTT / ASS / SSA)
- คลิก สร้าง (หรือ
Ctrl+Enter) - ดูคิว คลิก เปิด บนแถวเมื่อเสร็จ
ตัวเลือกรูปแบบ¶
| รูปแบบ | ดีที่สุดสำหรับ |
|---|---|
| SRT | สากล — เกือบทุกผู้เล่นรองรับ |
| VTT | องค์ประกอบ HTML5 <video> <track> |
| ASS / SSA | คาราโอเกะ, คำบรรยายที่จัดสไตล์, เวิร์กโฟลว์ fansub |
ทั้งสี่รูปแบบ round-trip ผ่าน parser เดียวกัน ดังนั้นคุณสามารถ สลับรูปแบบเอาต์พุตเมื่อ re-translate โดยไม่สูญเสียจังหวะเวลา
ขนาดโมเดล Whisper¶
สลับใน Settings → Subtitle:
| โมเดล | ขนาด | ความเร็ว | ความแม่นยำ |
|---|---|---|---|
tiny |
~75 MB | เร็วมาก | ต่ำ |
base (ค่าเริ่มต้น) |
~150 MB | เร็ว | พอใช้ |
small |
~500 MB | ปานกลาง | ดี |
medium |
~1.5 GB | ช้า | สูง |
large |
~3 GB | ช้ามาก | ดีที่สุด |
โมเดลดาวน์โหลดเมื่อใช้ครั้งแรกและแคชในเครื่อง บนการเชื่อมต่อช้า การรันครั้งแรกรู้สึกนาน; การรันถัดไปเร็ว
เปรียบเทียบวิธี STT¶
| Backend | ราคา | ออนไลน์? | การแยกผู้พูด | ภาษา |
|---|---|---|---|---|
| Whisper (ในเครื่อง) | ฟรี | ไม่ | ไม่ | 99 |
| Google Cloud STT | เสียเงิน | ใช่ | ใช่ (โมเดล latest_long) |
125+ |
| Soniox | เสียเงิน | ใช่ | ใช่ (ป้ายผู้พูดต่อ token) | 60+ |
สลับใน Settings → Subtitle → STT method
เคล็ดลับ¶
- ปุ่มหยุด — ขัดจังหวะ batch ที่กำลังทำงาน ไฟล์ที่อยู่ในคิว ข้างหลัง active ยังคงอยู่ในคิว; คุณสามารถดำเนินการต่อในภายหลัง
- สร้างใหม่ — คลิกขวารายการ Done เพื่อรันใหม่ด้วยรูปแบบ / ภาษา / วิธี STT ที่แตกต่างกัน
- เสียงยาว — Whisper จัดการเสียงเป็นชั่วโมงได้ดี; งบประมาณ
~1 นาทีของการประมวลผลต่อ 1 นาทีของเสียงในโมเดล CPU
base
ทางลัด¶
| ทางลัด | การกระทำ |
|---|---|
Ctrl+Enter |
สร้าง |
Ctrl+O |
เรียกดู |
Ctrl+F |
โฟกัสค้นหาประวัติ |