MacWhisper utilise OpenAI pour transcrire de l’audio en local sur votre Mac

Nicolas Furno

lundi 06 février 2023 à 13:30 • 29

MacWhisper est un utilitaire pour macOS qui transcrit n’importe quel fichier audio que vous lui donnez. Sous le capot, il repose sur Whisper d’OpenAI, un moteur de transcription qui se base sur les intelligences artificielles pour améliorer la rapidité et la qualité du travail réalisé par rapport aux méthodes traditionnelles. Les créateurs de DALL·E (générateur d’images) et ChatGPT (générateur de textes) ont créé un modèle à partir de 680 000 heures d’audio qui avait été transcrites par ailleurs. Ce moteur de transcription est open-source, ce qui permet de l’utiliser en local et à des apps de l’intégrer.

Le développeur de MacWhisper a ainsi récupéré ce modèle et l’a intégré à une interface native pour macOS. Une interface très simple, mais efficace : vous pouvez soit cliquer sur un bouton pour lancer un enregistrement au microphone, soit glisser/déposer un fichier dans la fenêtre et la transcription débute immédiatement. Avec les réglages par défaut, la langue est identifiée automatiquement et le texte apparaît après quelques secondes. Même si le fichier audio est très long, vous verrez rapidement les premières lignes de texte, ce qui est utile pour vérifier que la langue a bien été identifiée.

La transcription est jusqu’à 15 fois plus rapide que le temps réel d’après son concepteur, ce qui veut dire qu’il lui faudra une seconde pour en traiter 15 du fichier original. Dans les faits, cela peut même être plus rapide que ça : sur mon Mac Studio, MacWhisper a transcrit un fichier de huit minutes en une quinzaine de secondes, soit une transcription environ trente fois plus rapide que le temps réel. C’était avec les réglages par défaut et « Accurate », sachant qu’il y a un mode plus rapide qui fait un compromis sur la qualité de la transcription.

Une fois le travail effectué, vous pouvez utiliser l’app pour lire le texte et écouter l’audio en même temps. Les deux informations sont synchronisées, si bien que vous pouvez vous déplacer dans le texte et cliquer n’importe quelle ligne pour écouter la partie correspondante, ou à l’inverse vous déplacer dans le fichier audio et afficher la transcription associée. À ce sujet, MacWhisper ne se limite pas aux fichiers audio (formats mp3, m4a ou wav), l’app peut aussi agir sur des vidéos (format mp4 uniquement) et générer un fichier de sous-titre aux formats .srt et .vtt.

Sur mon fichier d’essai, la transcription est tout à fait satisfaisante pour une app gratuite et pour un résultat obtenu en quelques secondes. Il reste quelques erreurs, notamment avec les noms propres sans trop de surprise¹ et aussi avec des homophones², mais cela reste aisément compréhensible et avec quelques corrections, le résultat est tout à fait satisfaisant. Il existe par ailleurs des modèles plus lents et plus performants, mais ils nécessitent d’acheter MacWhisper Pro, vendu environ 12 € TTC sur le site officiel.

La principale différence entre la version gratuite et l’édition Pro est l’inclusion des deux modèles supplémentaires, ce qui alourdit nettement l’app. Alors que la version de base pèse autour des 200 Mo, MacWhisper Pro frôle les 5 Go une fois installé sur le Mac. Le traitement est aussi nettement plus long, il a fallu environ trois minutes et demi, ce qui reste 2,3 fois plus rapide que le temps réel. Le résultat est effectivement meilleur qu’avec le modèle de base, avec des phrases mieux formées et de nombreuses erreurs grammaticales évitées. On approche cette fois du résultat parfait sans retouches et cela justifie amplement le prix demandé par la version professionnelle si vous avez besoin de transcrire régulièrement de grandes quantités d’audio.

Transcription du même fichier audio avec le modèle le plus précis.

Le développeur de MacWhisper a de nombreuses idées pour améliorer son app : meilleures identification et découpe des phrases, la possibilité de traduire le texte transcrit et des fonctions supplémentaires, comme la transcription en direct de tout ce que les microphones du Mac captent, ou encore la possibilité d’identifier et de distinguer plusieurs personnes sur la piste audio. Une partie de ces fonctions sera réservée à la version Pro, d’autres seront communes aux deux.

En attendant, l’app s’installe sur tous les Mac à partir de macOS Ventura et même si les modèles Apple Silicon sont recommandés, vous pouvez utiliser l’app sur des Mac Intel. Comme tout ce qui touche à l’intelligence artificielle, les puces maison sont à privilégier pour leur moteur neuronal et les optimisations générales pour ces tâches. L’interface de MacWhisper n’est proposée qu’en anglais.

Quelques exemples : « Syrie » pour Siri, « I-Mac » au lieu d’iMac ou encore ma préférée, « la pelTV » à la place de l’Apple TV. Notez que ce n’est pas systématique, le système peut identifier des noms de produits, notamment celui de l’iPhone semble mieux compris. ↩︎
Par exemple, « Je crois savoir d'ailleurs que tu l'as des tests tout particulièrement. » au lieu de « Je crois savoir d'ailleurs que tu la détestes tout particulièrement. » ↩︎

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

MacWhisper utilise OpenAI pour transcrire de l’audio en local sur votre Mac

Rejoignez le Club iGen

Actualités

S’il vous plaît, ne créez pas de bombe nucléaire avec Claude

La publicité et les liens commerciaux pourraient arriver dans ChatGPT… avec prudence

Un SSD NVMe de 2 To proche de la taille d'une carte micro SIM

Mieux qu'Amazon : le MacBook M4 à 920 € pour le 15 août

Intel et le Thunderbolt 5 ajoutent l'USB 3.2 Gen 2x2 (20 Gb/s) aux Mac dans certains cas

Une panne nationale d'envergure touche la SNCF [🆕 retour à la normale]

Le développement de l’IA finalement bloqué par le mur de la consommation électrique ?

Le MacBook Pro M5 pourrait avoir une option cellulaire 5G

L'IA est là et il faut apprendre à parler chatbot

Un Mac Pro M4 Ultra repéré dans du code : futur lancement ou projet avorté ?

iPad A18, Studio Display 2, nouvelle Apple TV : tous les appareils révélés par une grosse fuite d’Apple

Apple préparerait bien un successeur au Studio Display, avec une puce A19 Pro 🆕

Bonne affaire : le MacBook Air M4 repasse sous les 1 000 € sur Amazon 🆕

Firefox règle son problème de performances, qui n’était pas lié à la fonction d’IA que l’on croyait

Que pensez-vous de GPT-5 ?

Starlink ajoute une option pour mettre en pause un abonnement pour 5 € par mois (gratuite auparavant) 🆕

Image du moment

Tests

Test du BenQ MA270U : un écran 4K pensé pour le Mac

Test des MacBook Air M4 : faut-il lâcher la M1 ?

Test du fauteuil Flexispot C7 Air : il n’y a que la maille qui m’aille

Test du Synology DS925+ : ça passe ou ça NAS

Test de la ScreenBar Halo 2 : une lampe d'écran à laquelle il ne manque que le Wi-Fi

Test du SSD externe Crucial X10, qui peut atteindre 8 To