Перейти к содержанию

Создание субтитров (STT)

Транскрибирует аудио или видео в субтитры с таймингом. Распознаёт речь и выдаёт SRT / VTT / ASS / SSA — с опциональным переводом за один проход.

Что нужно

  • FFmpeg в PATH для декодирования аудио/видео — см. Настройка FFmpeg.
  • Бэкенд транскрипции, один из:
    • faster-whisper — локально, офлайн, бесплатно (по умолчанию; настройка не нужна)
    • Google Cloud Speech-to-Text — облако, платно, точнее на шумном аудио. См. Настройка Google Cloud.
    • Soniox — облако, платно, в реальном времени и разделение спикеров. См. Настройка Soniox.

Пошагово

  1. Нажмите Создание субтитров в боковой панели.
  2. Сбросьте один или несколько аудио / видео файлов (.mp3, .wav, .m4a, .flac, .ogg, .aac, .wma, .mp4, .webm, .mkv, .avi, .mov, .wmv).
  3. Выберите Исходный язык (язык, произносимый в аудио) — оставьте Автоопределение, чтобы Whisper его определил.
  4. Выберите Целевой язык — выберите Без перевода для простой транскрипции, или любой из 45 поддерживаемых языков, чтобы перевести транскрипцию за один проход.
  5. Выберите Формат вывода (SRT / VTT / ASS / SSA).
  6. Нажмите Создать (или Ctrl+Enter).
  7. Наблюдайте за очередью. Откройте строку при завершении.

Выбор формата

Формат Лучше всего для
SRT Универсальный — почти каждый плеер поддерживает
VTT Элементы <track> HTML5 <video>
ASS / SSA Караоке, стилизованные субтитры, fansub-процессы

Все четыре формата идут round-trip через один парсер, поэтому можно менять формат вывода при повторном переводе без потери тайминга.

Размер модели Whisper

Меняется в Настройки → Субтитры:

Модель Размер Скорость Точность
tiny ~75 МБ очень быстро низкая
base (по умолчанию) ~150 МБ быстро приемлемая
small ~500 МБ средняя хорошая
medium ~1,5 ГБ медленно высокая
large ~3 ГБ очень медленно лучшая

Модели загружаются при первом использовании и кэшируются локально. На медленном соединении первый запуск ощущается долгим; последующие быстрые.

Сравнение методов STT

Бэкенд Стоимость Онлайн? Разделение спикеров Языки
Whisper (локально) Бесплатно Нет Нет 99
Google Cloud STT Платно Да Да (модель latest_long) 125+
Soniox Платно Да Да (метки на токен) 60+

Меняется в Настройки → Субтитры → Метод STT.

Советы

  • Кнопка Стоп — прерывает выполняющийся batch. Файлы в очереди за активным остаются в очереди; можно возобновить позже.
  • Пересоздать — правый клик по записи Done, чтобы перезапустить с другим форматом / языком / методом STT.
  • Длинное аудио — Whisper хорошо обрабатывает часы аудио; закладывайте ~1 минуту обработки на минуту аудио на CPU с моделью base.

Горячие клавиши

Клавиша Действие
Ctrl+Enter Создать
Ctrl+O Обзор
Ctrl+F Фокус на поиск истории