Создание субтитров (STT)¶
Транскрибирует аудио или видео в субтитры с таймингом. Распознаёт речь и выдаёт SRT / VTT / ASS / SSA — с опциональным переводом за один проход.
Что нужно¶
- FFmpeg в
PATHдля декодирования аудио/видео — см. Настройка FFmpeg. - Бэкенд транскрипции, один из:
- faster-whisper — локально, офлайн, бесплатно (по умолчанию; настройка не нужна)
- Google Cloud Speech-to-Text — облако, платно, точнее на шумном аудио. См. Настройка Google Cloud.
- Soniox — облако, платно, в реальном времени и разделение спикеров. См. Настройка Soniox.
Пошагово¶
- Нажмите Создание субтитров в боковой панели.
- Сбросьте один или несколько аудио / видео файлов (
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv). - Выберите Исходный язык (язык, произносимый в аудио) —
оставьте
Автоопределение, чтобы Whisper его определил. - Выберите Целевой язык — выберите
Без переводадля простой транскрипции, или любой из 45 поддерживаемых языков, чтобы перевести транскрипцию за один проход. - Выберите Формат вывода (SRT / VTT / ASS / SSA).
- Нажмите Создать (или
Ctrl+Enter). - Наблюдайте за очередью. Откройте строку при завершении.
Выбор формата¶
| Формат | Лучше всего для |
|---|---|
| SRT | Универсальный — почти каждый плеер поддерживает |
| VTT | Элементы <track> HTML5 <video> |
| ASS / SSA | Караоке, стилизованные субтитры, fansub-процессы |
Все четыре формата идут round-trip через один парсер, поэтому можно менять формат вывода при повторном переводе без потери тайминга.
Размер модели Whisper¶
Меняется в Настройки → Субтитры:
| Модель | Размер | Скорость | Точность |
|---|---|---|---|
tiny |
~75 МБ | очень быстро | низкая |
base (по умолчанию) |
~150 МБ | быстро | приемлемая |
small |
~500 МБ | средняя | хорошая |
medium |
~1,5 ГБ | медленно | высокая |
large |
~3 ГБ | очень медленно | лучшая |
Модели загружаются при первом использовании и кэшируются локально. На медленном соединении первый запуск ощущается долгим; последующие быстрые.
Сравнение методов STT¶
| Бэкенд | Стоимость | Онлайн? | Разделение спикеров | Языки |
|---|---|---|---|---|
| Whisper (локально) | Бесплатно | Нет | Нет | 99 |
| Google Cloud STT | Платно | Да | Да (модель latest_long) |
125+ |
| Soniox | Платно | Да | Да (метки на токен) | 60+ |
Меняется в Настройки → Субтитры → Метод STT.
Советы¶
- Кнопка Стоп — прерывает выполняющийся batch. Файлы в очереди за активным остаются в очереди; можно возобновить позже.
- Пересоздать — правый клик по записи Done, чтобы перезапустить с другим форматом / языком / методом STT.
- Длинное аудио — Whisper хорошо обрабатывает часы аудио;
закладывайте ~1 минуту обработки на минуту аудио на CPU с моделью
base.
Горячие клавиши¶
| Клавиша | Действие |
|---|---|
Ctrl+Enter |
Создать |
Ctrl+O |
Обзор |
Ctrl+F |
Фокус на поиск истории |