Tạo phụ đề (STT)¶

Phiên âm âm thanh hoặc video thành phụ đề có thời điểm. Bắt giọng nói và xuất ra SRT / VTT / ASS / SSA — kèm tùy chọn dịch trong cùng một lần chạy.

Bạn cần gì¶

FFmpeg trên PATH để giải mã âm thanh/video — xem Cài FFmpeg.
Một backend phiên âm, một trong:
- faster-whisper — local, offline, miễn phí (mặc định; không cần cài đặt thêm)
- Google Cloud Speech-to-Text — cloud, có phí, chính xác hơn với âm thanh nhiễu. Xem Cài Google Cloud.
- Soniox — cloud, có phí, thời gian thực và phân biệt người nói. Xem Cài Soniox.

Nhấp Tạo phụ đề ở thanh bên.
Thả một hoặc nhiều file âm thanh / video (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv).
Chọn Ngôn ngữ nguồn (ngôn ngữ được nói trong âm thanh) — để Tự động phát hiện cho Whisper tự xác định.
Chọn Ngôn ngữ đích — chọn Không dịch để lấy bản phiên âm thuần, hoặc bất kỳ ngôn ngữ nào trong 45 ngôn ngữ hỗ trợ để dịch luôn trong cùng lần chạy.
Chọn Định dạng xuất (SRT / VTT / ASS / SSA).
Nhấp Tạo (hoặc Ctrl+Enter).
Theo dõi hàng đợi. Nhấp Mở khi hoàn tất.

Định dạng	Phù hợp với
SRT	Phổ biến — gần như mọi trình phát đều hỗ trợ
VTT	HTML5 `<video>` với phần tử `<track>`
ASS / SSA	Karaoke, phụ đề có style, luồng fansub

Bốn định dạng đều round-trip qua cùng parser, nên bạn có thể chuyển định dạng xuất khi dịch lại mà không mất timing.

Chọn trong Cài đặt → Phụ đề:

Model	Kích thước	Tốc độ	Độ chính xác
`tiny`	~75 MB	rất nhanh	thấp
`base` (mặc định)	~150 MB	nhanh	tạm ổn
`small`	~500 MB	trung bình	tốt
`medium`	~1.5 GB	chậm	cao
`large`	~3 GB	rất chậm	tốt nhất

Model tải khi dùng lần đầu và cache cục bộ. Trên kết nối chậm, lần chạy đầu cảm giác lâu; các lần sau rất nhanh.

Backend	Chi phí	Online?	Phân biệt người nói	Ngôn ngữ
Whisper (local)	Miễn phí	Không	Không	99
Google Cloud STT	Có phí	Có	Có (model `latest_long`)	125+
Soniox	Có phí	Có	Có (nhãn người nói trên từng token)	60+

Chuyển trong Cài đặt → Phụ đề → Phương thức STT.

Nút Dừng — gián đoạn batch đang chạy. File còn xếp hàng phía sau giữ nguyên; bạn có thể resume sau.
Tạo lại — nhấp chuột phải vào mục đã Done để chạy lại với định dạng / ngôn ngữ / phương thức STT khác.
Audio dài — Whisper xử lý audio hàng giờ ổn; ước tính ~1 phút xử lý cho mỗi phút audio trên CPU với model base.