Generar subtítulo (STT)¶
Transcribe audio o video en subtítulos con tiempos. Capta el habla y emite SRT / VTT / ASS / SSA — con traducción opcional en la misma pasada.
Lo que necesitas¶
- FFmpeg en
PATHpara decodificación audio/video — ver Configuración FFmpeg. - Un backend de transcripción, uno de:
- faster-whisper — local, offline, gratis (predeterminado; sin configuración necesaria)
- Google Cloud Speech-to-Text — cloud, de pago, más preciso en audio ruidoso. Ver Configuración Google Cloud.
- Soniox — cloud, de pago, en tiempo real y diarización de oradores. Ver Configuración Soniox.
Paso a paso¶
- Haz clic en Generar subtítulo en la barra lateral.
- Suelta uno o varios archivos audio / video (
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv). - Elige el Idioma origen (el idioma hablado en el audio) —
deja en
Detección automáticapara que Whisper lo descubra. - Elige un Idioma destino — elige
Sin traducciónpara una transcripción simple, o cualquiera de los 45 idiomas soportados para que se traduzca en la misma pasada. - Elige el Formato de salida (SRT / VTT / ASS / SSA).
- Haz clic en Generar (o
Ctrl+Enter). - Observa la cola. Abre la fila cuando termine.
Elección de formato¶
| Formato | Mejor para |
|---|---|
| SRT | Universal — casi todos los reproductores lo soportan |
| VTT | Elementos <track> de HTML5 <video> |
| ASS / SSA | Karaoke, subtítulos con estilo, flujos fansub |
Los cuatro formatos round-trip por el mismo parser, así que puedes cambiar el formato de salida en una re-traducción sin perder el timing.
Tamaño del modelo Whisper¶
Cambia en Configuración → Subtítulo:
| Modelo | Tamaño | Velocidad | Precisión |
|---|---|---|---|
tiny |
~75 MB | muy rápido | baja |
base (predeterminado) |
~150 MB | rápido | decente |
small |
~500 MB | medio | buena |
medium |
~1.5 GB | lento | alta |
large |
~3 GB | muy lento | mejor |
Los modelos se descargan en el primer uso y se cachean localmente. En una conexión lenta la primera ejecución parece larga; las siguientes son rápidas.
Comparación de métodos STT¶
| Backend | Coste | ¿Online? | Diarización de oradores | Idiomas |
|---|---|---|---|---|
| Whisper (local) | Gratis | No | No | 99 |
| Google Cloud STT | De pago | Sí | Sí (modelo latest_long) |
125+ |
| Soniox | De pago | Sí | Sí (etiquetas por token) | 60+ |
Cambia en Configuración → Subtítulo → Método STT.
Trucos¶
- Botón Detener — interrumpe un batch en vuelo. Los archivos en cola detrás del activo permanecen en cola; puedes reanudar más tarde.
- Re-generar — clic derecho en una entrada Done para reejecutar con formato / idioma / método STT diferente.
- Audio largo — Whisper maneja horas de audio bien; presupuesta
~1 minuto de procesamiento por minuto de audio en CPU con modelo
base.
Atajos¶
| Atajo | Acción |
|---|---|
Ctrl+Enter |
Generar |
Ctrl+O |
Navegar |
Ctrl+F |
Foco en búsqueda de historial |