Gerar legenda (STT)¶
Transcreve áudio ou vídeo em legendas com timing. Capta a fala e emite SRT / VTT / ASS / SSA — com tradução opcional na mesma passagem.
O que você precisa¶
- FFmpeg no
PATHpara decodificação áudio/vídeo — veja Definição FFmpeg. - Um backend de transcrição, um de:
- faster-whisper — local, offline, grátis (padrão; sem definição necessária)
- Google Cloud Speech-to-Text — cloud, pago, mais preciso em áudio ruidoso. Veja Definição Google Cloud.
- Soniox — cloud, pago, tempo real e diarização de falantes. Veja Definição Soniox.
Passo a passo¶
- Clique em Gerar legenda na barra lateral.
- Solte um ou mais ficheiros áudio / vídeo (
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv). - Escolha o Idioma fonte (o idioma falado no áudio) — deixe em
Detecção automáticapara o Whisper descobrir. - Escolha um Idioma destino — escolha
Sem traduçãopara transcrição simples, ou qualquer um dos 45 idiomas suportados para traduzir a transcrição na mesma passagem. - Escolha o Formato de saída (SRT / VTT / ASS / SSA).
- Clique em Gerar (ou
Ctrl+Enter). - Observe a fila. Abra a linha quando terminar.
Escolha do formato¶
| Formato | Melhor para |
|---|---|
| SRT | Universal — quase todo player suporta |
| VTT | Elementos <track> de HTML5 <video> |
| ASS / SSA | Karaokê, legendas estilizadas, fluxos fansub |
Os quatro formatos fazem round-trip pelo mesmo parser, então você pode trocar o formato de saída em uma re-tradução sem perder o timing.
Tamanho do modelo Whisper¶
Troque em Definições → Legenda:
| Modelo | Tamanho | Velocidade | Precisão |
|---|---|---|---|
tiny |
~75 MB | muito rápido | baixa |
base (padrão) |
~150 MB | rápido | decente |
small |
~500 MB | médio | bom |
medium |
~1.5 GB | lento | alto |
large |
~3 GB | muito lento | melhor |
Modelos baixam no primeiro uso e ficam cacheados localmente. Em conexão lenta a primeira execução parece longa; as seguintes são rápidas.
Comparação de métodos STT¶
| Backend | Custo | Online? | Diarização | Idiomas |
|---|---|---|---|---|
| Whisper (local) | Grátis | Não | Não | 99 |
| Google Cloud STT | Pago | Sim | Sim (modelo latest_long) |
125+ |
| Soniox | Pago | Sim | Sim (rótulos por token) | 60+ |
Troque em Definições → Legenda → Método STT.
Dicas¶
- Botão Parar — interrompe um batch em andamento. Ficheiros enfileirados atrás do ativo permanecem na fila; você pode retomar depois.
- Re-gerar — clique com o botão direito em uma entrada Done para reexecutar com formato / idioma / método STT diferente.
- Áudio longo — Whisper lida bem com horas de áudio; orçamente
~1 minuto de processamento por minuto de áudio em CPU com modelo
base.
Atalhos¶
| Atalho | Ação |
|---|---|
Ctrl+Enter |
Gerar |
Ctrl+O |
Procurar |
Ctrl+F |
Foco em busca do histórico |