Ouvrir le menu principal

MacGeneration

Recherche

MacWhisper utilise OpenAI pour transcrire de l’audio en local sur votre Mac

Nicolas Furno

Monday 06 February 2023 à 13:30 • 29

Logiciels

MacWhisper est un utilitaire pour macOS qui transcrit n’importe quel fichier audio que vous lui donnez. Sous le capot, il repose sur Whisper d’OpenAI, un moteur de transcription qui se base sur les intelligences artificielles pour améliorer la rapidité et la qualité du travail réalisé par rapport aux méthodes traditionnelles. Les créateurs de DALL·E (générateur d’images) et ChatGPT (générateur de textes) ont créé un modèle à partir de 680 000 heures d’audio qui avait été transcrites par ailleurs. Ce moteur de transcription est open-source, ce qui permet de l’utiliser en local et à des apps de l’intégrer.

Le développeur de MacWhisper a ainsi récupéré ce modèle et l’a intégré à une interface native pour macOS. Une interface très simple, mais efficace : vous pouvez soit cliquer sur un bouton pour lancer un enregistrement au microphone, soit glisser/déposer un fichier dans la fenêtre et la transcription débute immédiatement. Avec les réglages par défaut, la langue est identifiée automatiquement et le texte apparaît après quelques secondes. Même si le fichier audio est très long, vous verrez rapidement les premières lignes de texte, ce qui est utile pour vérifier que la langue a bien été identifiée.

La transcription est jusqu’à 15 fois plus rapide que le temps réel d’après son concepteur, ce qui veut dire qu’il lui faudra une seconde pour en traiter 15 du fichier original. Dans les faits, cela peut même être plus rapide que ça : sur mon Mac Studio, MacWhisper a transcrit un fichier de huit minutes en une quinzaine de secondes, soit une transcription environ trente fois plus rapide que le temps réel. C’était avec les réglages par défaut et « Accurate », sachant qu’il y a un mode plus rapide qui fait un compromis sur la qualité de la transcription.

Une fois le travail effectué, vous pouvez utiliser l’app pour lire le texte et écouter l’audio en même temps. Les deux informations sont synchronisées, si bien que vous pouvez vous déplacer dans le texte et cliquer n’importe quelle ligne pour écouter la partie correspondante, ou à l’inverse vous déplacer dans le fichier audio et afficher la transcription associée. À ce sujet, MacWhisper ne se limite pas aux fichiers audio (formats mp3, m4a ou wav), l’app peut aussi agir sur des vidéos (format mp4 uniquement) et générer un fichier de sous-titre aux formats .srt et .vtt.

Sur mon fichier d’essai, la transcription est tout à fait satisfaisante pour une app gratuite et pour un résultat obtenu en quelques secondes. Il reste quelques erreurs, notamment avec les noms propres sans trop de surprise1 et aussi avec des homophones2, mais cela reste aisément compréhensible et avec quelques corrections, le résultat est tout à fait satisfaisant. Il existe par ailleurs des modèles plus lents et plus performants, mais ils nécessitent d’acheter MacWhisper Pro, vendu environ 12 € TTC sur le site officiel.

La principale différence entre la version gratuite et l’édition Pro est l’inclusion des deux modèles supplémentaires, ce qui alourdit nettement l’app. Alors que la version de base pèse autour des 200 Mo, MacWhisper Pro frôle les 5 Go une fois installé sur le Mac. Le traitement est aussi nettement plus long, il a fallu environ trois minutes et demi, ce qui reste 2,3 fois plus rapide que le temps réel. Le résultat est effectivement meilleur qu’avec le modèle de base, avec des phrases mieux formées et de nombreuses erreurs grammaticales évitées. On approche cette fois du résultat parfait sans retouches et cela justifie amplement le prix demandé par la version professionnelle si vous avez besoin de transcrire régulièrement de grandes quantités d’audio.

Transcription du même fichier audio avec le modèle le plus précis.

Le développeur de MacWhisper a de nombreuses idées pour améliorer son app : meilleures identification et découpe des phrases, la possibilité de traduire le texte transcrit et des fonctions supplémentaires, comme la transcription en direct de tout ce que les microphones du Mac captent, ou encore la possibilité d’identifier et de distinguer plusieurs personnes sur la piste audio. Une partie de ces fonctions sera réservée à la version Pro, d’autres seront communes aux deux.

En attendant, l’app s’installe sur tous les Mac à partir de macOS Ventura et même si les modèles Apple Silicon sont recommandés, vous pouvez utiliser l’app sur des Mac Intel. Comme tout ce qui touche à l’intelligence artificielle, les puces maison sont à privilégier pour leur moteur neuronal et les optimisations générales pour ces tâches. L’interface de MacWhisper n’est proposée qu’en anglais.


  1. Quelques exemples : « Syrie » pour Siri, « I-Mac » au lieu d’iMac ou encore ma préférée, « la pelTV » à la place de l’Apple TV. Notez que ce n’est pas systématique, le système peut identifier des noms de produits, notamment celui de l’iPhone semble mieux compris.  ↩︎

  2. Par exemple, « Je crois savoir d'ailleurs que tu l'as des tests tout particulièrement. » au lieu de « Je crois savoir d'ailleurs que tu la détestes tout particulièrement. »  ↩︎

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner