Générer un sous-titre (STT)¶
Transcrit l'audio ou la vidéo en sous-titres avec timing. Capte la parole et émet du SRT / VTT / ASS / SSA — avec traduction optionnelle dans le même passage.
Ce qu'il vous faut¶
- FFmpeg dans
PATHpour le décodage audio/vidéo — voir Configuration FFmpeg. - Un backend de transcription, l'un de :
- faster-whisper — local, hors ligne, gratuit (par défaut ; aucune configuration nécessaire)
- Google Cloud Speech-to-Text — cloud, payant, plus précis sur l'audio bruyant. Voir Configuration Google Cloud.
- Soniox — cloud, payant, temps réel et diarisation des locuteurs. Voir Configuration Soniox.
Pas à pas¶
- Cliquez sur Générer un sous-titre dans la barre latérale.
- Déposez un ou plusieurs fichiers audio / vidéo (
.mp3,.wav,.m4a,.flac,.ogg,.aac,.wma,.mp4,.webm,.mkv,.avi,.mov,.wmv). - Choisissez la Langue source (la langue parlée dans l'audio) — laissez
sur
Détection automatiquepour que Whisper la détecte. - Choisissez une Langue cible — choisissez
Pas de traductionpour une transcription brute, ou n'importe laquelle des 45 langues supportées pour traduire la transcription dans le même passage. - Choisissez le Format de sortie (SRT / VTT / ASS / SSA).
- Cliquez sur Générer (ou
Ctrl+Entrée). - Surveillez la file. Ouvrez la ligne quand fini.
Choix du format¶
| Format | Idéal pour |
|---|---|
| SRT | Universel — presque tous les lecteurs le supportent |
| VTT | Éléments <track> HTML5 <video> |
| ASS / SSA | Karaoké, sous-titres stylisés, flux fansub |
Les quatre formats round-trip via le même parseur, donc vous pouvez changer le format de sortie sur une re-traduction sans perdre le timing.
Taille du modèle Whisper¶
Changez dans Paramètres → Sous-titre :
| Modèle | Taille | Vitesse | Précision |
|---|---|---|---|
tiny |
~75 Mo | très rapide | basse |
base (par défaut) |
~150 Mo | rapide | correcte |
small |
~500 Mo | moyenne | bonne |
medium |
~1,5 Go | lente | élevée |
large |
~3 Go | très lente | meilleure |
Les modèles se téléchargent à la première utilisation et sont mis en cache localement. Sur une connexion lente, la première exécution semble longue ; les suivantes sont rapides.
Comparaison des méthodes STT¶
| Backend | Coût | En ligne ? | Diarisation des locuteurs | Langues |
|---|---|---|---|---|
| Whisper (local) | Gratuit | Non | Non | 99 |
| Google Cloud STT | Payant | Oui | Oui (modèle latest_long) |
125+ |
| Soniox | Payant | Oui | Oui (étiquettes par token) | 60+ |
Changez dans Paramètres → Sous-titre → Méthode STT.
Astuces¶
- Bouton Stop — interrompt un batch en cours. Les fichiers en file derrière l'actif restent en file ; vous pouvez reprendre plus tard.
- Re-générer — clic droit sur une entrée Done pour relancer avec un format / langue / méthode STT différent.
- Audio long — Whisper gère bien des heures d'audio ; budgétisez
~1 minute de traitement par minute d'audio sur CPU avec le modèle
base.
Raccourcis¶
| Raccourci | Action |
|---|---|
Ctrl+Entrée |
Générer |
Ctrl+O |
Parcourir |
Ctrl+F |
Focus sur la recherche d'historique |