Ouvrir le menu principal

MacGeneration

Recherche

Mistral dévoile deux modèles de transcription multilingue, dont un en quasi-temps réel

Félix Cattafesta

jeudi 05 février 2026 à 10:54 • 23

Intelligence artificielle

L’IA générative aura grandement fait progresser les technologies de transcription. Si l’on parle souvent du Whisper d’OpenAI, Mistral a présenté aujourd’hui une famille de modèles pensés pour cet usage. L’un d’entre eux est spécifiquement pensé pour la transcription en temps réel.

Image Mistral

La famille se compose de deux modèles. Le premier est Voxtral Mini Transcribe V2, que l’on nous présente comme à la pointe et prenant en charge le découpage selon les intervenants, le biais contextuel ainsi qu’un horodatage au niveau des mots. Il fonctionne avec 13 langues, à savoir l'anglais, le chinois, l'hindi, l'espagnol, l'arabe, le français, le portugais, le russe, l'allemand, le japonais, le coréen, l'italien et le néerlandais. Plutôt pensé pour transcrire de gros lots de fichiers à la fois, il peut traiter des enregistrements jusqu’à 3 heures en une requête.

De son côté, Voxtral Realtime a été conçu spécialement pour la transcription en direct avec une latence configurable à moins de 200 ms, ce qui permet de s’en servir en temps réel. Selon Mistral, il surpasse GPT-4o mini Transcribe et Gemini 2.5 Flash. Prenant lui aussi en charge 13 langues, il est disponible en open-weights sous licence Apache 2.0 et peut être essayé dans Mistral Studio ou via le chatbot Le Chat.

Voxtral Realtime fait 4 milliards de paramètres et est donc suffisamment petit pour tourner sur un téléphone ou un ordinateur en local. Selon Mistral, ces deux nouveaux modèles sont à la fois moins coûteux à exploiter et moins sujets aux erreurs que les alternatives concurrentes.

Voxtral Mini Transcribe V2 est disponible via une API à 0,003 $ la minute, tandis que la variante temps réel est annoncée à 0,006 $ la minute. Cette dernière est intéressante : le dernier modèle du genre de Google a une latence d’environ 2 secondes. NVIDIA propose aussi Parakeet, un modèle ASR très performant en anglais sur GPU davantage pensé pour le traitement à grande échelle que pour la transcription multilingue.

illustration ulule

Pour les 50 ans d’Apple, MacGeneration publie un livre événement

Précommandez-le dès maintenant et profitez-en pour découvrir nos nouveaux goodies, ou prolonger votre abonnement au Club iGen à tarif réduit.

Découvrez nos offres

Précommandez le livre et rejoignez la fête

Un livre pour raconter 50 ans d'Apple, une journée à Lyon pour les célébrer ensemble.

Participez sur Ulule