MacWhisper utilise OpenAI pour transcrire de l’audio en local sur votre Mac

Nicolas Furno |

MacWhisper est un utilitaire pour macOS qui transcrit n’importe quel fichier audio que vous lui donnez. Sous le capot, il repose sur Whisper d’OpenAI, un moteur de transcription qui se base sur les intelligences artificielles pour améliorer la rapidité et la qualité du travail réalisé par rapport aux méthodes traditionnelles. Les créateurs de DALL·E (générateur d’images) et ChatGPT (générateur de textes) ont créé un modèle à partir de 680 000 heures d’audio qui avait été transcrites par ailleurs. Ce moteur de transcription est open-source, ce qui permet de l’utiliser en local et à des apps de l’intégrer.

Le développeur de MacWhisper a ainsi récupéré ce modèle et l’a intégré à une interface native pour macOS. Une interface très simple, mais efficace : vous pouvez soit cliquer sur un bouton pour lancer un enregistrement au microphone, soit glisser/déposer un fichier dans la fenêtre et la transcription débute immédiatement. Avec les réglages par défaut, la langue est identifiée automatiquement et le texte apparaît après quelques secondes. Même si le fichier audio est très long, vous verrez rapidement les premières lignes de texte, ce qui est utile pour vérifier que la langue a bien été identifiée.

La transcription est jusqu’à 15 fois plus rapide que le temps réel d’après son concepteur, ce qui veut dire qu’il lui faudra une seconde pour en traiter 15 du fichier original. Dans les faits, cela peut même être plus rapide que ça : sur mon Mac Studio, MacWhisper a transcrit un fichier de huit minutes en une quinzaine de secondes, soit une transcription environ trente fois plus rapide que le temps réel. C’était avec les réglages par défaut et « Accurate », sachant qu’il y a un mode plus rapide qui fait un compromis sur la qualité de la transcription.

Une fois le travail effectué, vous pouvez utiliser l’app pour lire le texte et écouter l’audio en même temps. Les deux informations sont synchronisées, si bien que vous pouvez vous déplacer dans le texte et cliquer n’importe quelle ligne pour écouter la partie correspondante, ou à l’inverse vous déplacer dans le fichier audio et afficher la transcription associée. À ce sujet, MacWhisper ne se limite pas aux fichiers audio (formats mp3, m4a ou wav), l’app peut aussi agir sur des vidéos (format mp4 uniquement) et générer un fichier de sous-titre aux formats .srt et .vtt.

Sur mon fichier d’essai, la transcription est tout à fait satisfaisante pour une app gratuite et pour un résultat obtenu en quelques secondes. Il reste quelques erreurs, notamment avec les noms propres sans trop de surprise1 et aussi avec des homophones2, mais cela reste aisément compréhensible et avec quelques corrections, le résultat est tout à fait satisfaisant. Il existe par ailleurs des modèles plus lents et plus performants, mais ils nécessitent d’acheter MacWhisper Pro, vendu environ 12 € TTC sur le site officiel.

La principale différence entre la version gratuite et l’édition Pro est l’inclusion des deux modèles supplémentaires, ce qui alourdit nettement l’app. Alors que la version de base pèse autour des 200 Mo, MacWhisper Pro frôle les 5 Go une fois installé sur le Mac. Le traitement est aussi nettement plus long, il a fallu environ trois minutes et demi, ce qui reste 2,3 fois plus rapide que le temps réel. Le résultat est effectivement meilleur qu’avec le modèle de base, avec des phrases mieux formées et de nombreuses erreurs grammaticales évitées. On approche cette fois du résultat parfait sans retouches et cela justifie amplement le prix demandé par la version professionnelle si vous avez besoin de transcrire régulièrement de grandes quantités d’audio.

Transcription du même fichier audio avec le modèle le plus précis.

Le développeur de MacWhisper a de nombreuses idées pour améliorer son app : meilleures identification et découpe des phrases, la possibilité de traduire le texte transcrit et des fonctions supplémentaires, comme la transcription en direct de tout ce que les microphones du Mac captent, ou encore la possibilité d’identifier et de distinguer plusieurs personnes sur la piste audio. Une partie de ces fonctions sera réservée à la version Pro, d’autres seront communes aux deux.

En attendant, l’app s’installe sur tous les Mac à partir de macOS Ventura et même si les modèles Apple Silicon sont recommandés, vous pouvez utiliser l’app sur des Mac Intel. Comme tout ce qui touche à l’intelligence artificielle, les puces maison sont à privilégier pour leur moteur neuronal et les optimisations générales pour ces tâches. L’interface de MacWhisper n’est proposée qu’en anglais.


  1. Quelques exemples : « Syrie » pour Siri, « I-Mac » au lieu d’iMac ou encore ma préférée, « la pelTV » à la place de l’Apple TV. Notez que ce n’est pas systématique, le système peut identifier des noms de produits, notamment celui de l’iPhone semble mieux compris.  ↩︎

  2. Par exemple, « Je crois savoir d'ailleurs que tu l'as des tests tout particulièrement. » au lieu de « Je crois savoir d'ailleurs que tu la détestes tout particulièrement. »  ↩︎

avatar jb18v | 

Par rapport à ce que propose YouTube avec les sous-titres automatiques, je suppose que c’est plus précis?

avatar stefhan | 

Même question que @jb18v quid de la fidélité de la retranscription ?

Pour les malentendants & sourds, comme moi, c'est toujours très utile mais frustrant et rageant aussi quand la qualité des sous-titres n'est pas au rendez-vous.

A suivre...

avatar Nicolas Furno | 

@stefhan

Il me semble avoir abordé le sujet, justement. Maintenant, si vous avez une question plus précise ou si vous voulez que je teste une vidéo en particulier, dites-moi laquelle.

avatar Link1993 | 

@nicolasf

Ah, bah je suis curieux de savoir ce que ça donne sur de l'audio provenant d'un intercom d'avion si c'est possible :)

https://youtu.be/seEI6Q7_4hg

avatar Nicolas Furno | 

@Link1993

Il y a pas mal de fautes avec le modèle de base, mais en parcourant le texte, je vois à peu près de quoi ça parle. Avec le modèle le plus avancé, ça me semble impressionnant, il gère même les termes plus techniques et les changements de langue.

Si tu veux, envoie moi un mail à nicolas@mgig.fr et je te transmets les deux transcriptions, tu pourras regarder toi même. 🙂

avatar Link1993 | 

@nicolasf

J'ai envoyé un mail pour info ! Assez curieux de voir ce que ça donne ! ^^

avatar Link1993 | 

@nicolasf

Super merci !

Étonnamment, très surpris quand il y a de la superposition de voix (typiquement, la radio en arrière plan). Il a du mal par moment, celui qui m'a surpris, c'est remplacer la ville de Pontoise par Antoine. Il a du mal aussi vers la fin, où j'ai parlé en anglais, et ou il captait très mal la réponse à mon appel.
surprise aussi, par moment, pour E U (Echo Uniform en alphabet aéro), parfois il mets juste les lettres, parfois il mets écho uniforme directement).

Bref, très surpris du résultat vu la complexité lié à l'enregistrement audio qui est pas très bon. Bien bien meilleur que ce que fourni YouTube, et ça fait un très très gros premier jet pour mettre rapidement des sous titres :)

Bon, la version basique est catastrophique en revanche...

J'ai mis les sous titres dans la videos tel quel a partir de l'export de Nicolas pour ceux qui veulent voir (je corrigerais un jour, mais ce jours n'est pas encore arrivé ! 😅)

https://youtu.be/seEI6Q7_4hg

PS : je suis allé faire une recherche avec le mot Whisper sur l'AppStore iPad en me disant qu'il y avait peut-être une version iPad. Je n'aurais pas du ! 🤣

avatar Lightman | 

@Link1993

Merci à toi pour l'expérience sur mauvais son, on se rend très bien compte de la prouesse (pour les belles images aussi).

avatar Link1993 | 

@Lightman

J'ai corrigé les sous titres y'a une semaine, désolé 😅

Mais grosso-modo, c'était surtout quelques passages un peu compliqué d'un coup ou ça avait du mal.

Il a eu du mal sur des termes techniques aussi, mais moins que prévu. Surprenament, il remplaçait parfois "Papa" par un P comme il faut (alphabet aéro), et parfois, pas du tout. Il a eu du mal ausssi quand j'ai switché en anglais.

Mais en fait, ce qui était bluffant, c'est que tôt était presque parfaitement synchronisé, et que ce que j'ai eu a faire était franchement minime par rapport au contenu à faire à la base en sous titre. Un bien bel outil en tout cas :)

avatar ipan | 

Pour l’utiliser depuis sa sortie, oui c’est beaucoup plus précis que YouTube ! La version pro est un bijoux qui m’a déjà fait économiser plusieurs milliers d’euros en prestation et freelance

avatar marc_os | 

> La version pro est un bijoux qui m’a déjà fait économiser plusieurs milliers d’euros en prestation et freelance

Les traducteurs humains dont le travail a été utilisé (pour ne pas dire autre chose) par OpenAI pour alimenter leur truc seront-ils rémunérés un jour ?

avatar vincentn | 

@marc_os

C’est déjà fait. Généralement du travail à la tâche payé trois francs six sous.
Pour le français, on trouve souvent des boîtes à Madagascar pour effectuer ce type de job (traduction, ocerisation, indexation de photos ou de textes, modération en ligne, entraînement des modèles d’IA…)

OpenAi, pour ChatGPT a notamment utilisé des travailleurs kenyans pour moins de 2 dollars de l’heure (article du Time magazine en janvier par exemple).

avatar marc_os | 

@ vincentn

> OpenAi, pour ChatGPT a notamment utilisé des travailleurs kenyans pour moins de 2 dollars de l’heure

Même plus besoin d'avoir des esclaves, on peut payer les gens deux balles de l'heure en toute bonne conscience... 🤮

avatar vincentn | 

@marc_os

Le pire, c’est ceux qui bossent pour la modération de RS type Facebook et consorts.
La modération automatisée fait un premier tri (avec les faux positifs, etc.) mais est au final assez peu efficace.
Les petites mains entrent alors en jeu et voient à longueur de journée des textes, des images potentiellement abjectes pour les valider ou les rejeter, selon des règles et critères souvent changeants ou abscons.

avatar Gauthier A. | 

@marc_os
Tout d’abord je tiens à préciser que je suis moi aussi révolter par les écarts de niveau de vie d’un pays à l’autre !

Cependant, je me suis toujours questionné : comment peut-on comparer le montant d’un salaire kenyan à un salaire français par exemple ?

De notre point de vue, cela paraît effectivement de l’exploitation, mais une petite recherche sur le net nous montre que le salaire moyen au Kenya en 2019 est de 146$ ( https://www.journaldunet.com/business/salaire/kenya/pays-ken)

Aussi, en partant d’une base de 2€/heure, 8h par jour et 5 jours par semaine donc 160h par mois, on arrive à 320€. Ça paraît bien non en comparant au salaire moyen non ? C’est sûr que par rapport à la France ça n’est rien, on est d’accord !

Mais je rappelle cependant que les Suisses pourraient être tout aussi affligés que les français.es soit payés plus de deux fois moins que chez eux (salaire median Suisse 5700€ contre 2520€ en France, chiffres arrondis) pour les mêmes boulots !

Bref… vous aurez compris mon propos : tout est relatif. Et il me semble important de vérifier le salaire moyen (ou mieux median) dans un pays afin de savoir si les personnes peuvent vivre décemment avec une telle somme dans leur pays.

Attention, je ne justifie pas ici les choix des entreprises ! Ni même, encore une fois, l’effroyable écart de niveau vie d’un pays à l’autre. Ni encore les questions éthiques, écologiques, sociales, que cela pose…

avatar jlb75 | 

@Gauthier A.

C’est ce qu’on appelle raisonner en « parité de pouvoir d’achat » et c’est évidemment essentiel pour faire de vraies comparaisons : https://fr.wikipedia.org/wiki/Parit%C3%A9_de_pouvoir_d%27achat

avatar YosraF | 

Ça fait cher la ligne de commande :)

Il suffit de le télécharger, de choisir le modèle et de mettre la vidéo à retranscrire.

avatar Nicolas Furno | 

@YosraF

Alors je suis le premier à sortir le terminal et les lignes de commande, mais bon, on ne peut pas nier que l'interface ici en fasse nettement plus. Sans parler de la transcription elle-même, la possibilité par la suite de lire ce qui a été transcrit synchronisé avec le son, de modifier les fautes à la volée et d'exporter le texte pour des sous-titres, justifie bien la GUI.

Sans compter que l'app est proposée gratuitement avec toutes les fonctions de base…

avatar zspy59 | 

Vous pouvez retrouver un tutoriel très bien expliqué sur le site de Korben 100% gratuit qui permet la retransmission avec Whisper.
Je l’ai testé et c’est vraiment super efficace.

avatar starsk | 

Ca marche du tonnerre même sur Macbook Pro Intel en Monterey... super outil ! Merci pour l'article.

avatar SkeletonGamer | 

Je viens d'acheter la version Pro (8,00 € EUR avec un code promo puisque j'avais téléchargé la version de base avant). C'est une dinguerie, j'ai quasiment aucune correction à faire. Par contre, ça fait turbiner mon M1 Max 🤣

avatar macregis | 

Depuis une vidéo.
- Phrase d'origine :
Bonjour, cette année, ça fait 25 ans que je travaille sur ordinateur et en plus, je vieillis.
- Version MacWhisperPro :
Bonjour, cette année, il s'est fait 25 ans que je travaille sur le ordinateur et en plus je visis.

Espérons que l'application se bonifie au fil du temps.

avatar twinworld | 

Vous avez testé la version pro avec tous les paramètres de compréhension au maximum ? C'est beaucoup plus lent pour obtenir le résultat final, mais je n'en reviens toujours pas de ce que le logiciel m'a sorti comme document.

avatar Lightman | 

@macregis

Ah non ! Tu n'as pas le droit d'utiliser ce pseudo. Je ne peux pas dire pourquoi en public mais tu n'as pas le droit ! 😤
(c'est la 1re fois que je te vois ici).

avatar starsk | 

Je viens de lui faire transcrire 2 longues vidéos d'interview de 40 minutes chacune.
Le résultat est franchement excellent. Réalisateur de documentaires, je peux vous dire que ce soft est formidable. Je n'ai même pas reflechit une seconde pour prendre la version pro.

avatar twinworld | 

Je teste. Premier fichier audio de 4 heures, paramètres au max pour obtenir un résultat le plus qualitatif possible. L'ordi a mis 2,5 heures environ. Le résultat est bluffant ! Je lui ai donné un enregistrement de débats parlementaire. C'est pas le vocabulaire le plus usuel. Ca l'est encore moins quand le parlement s'occupe d'affaires régionales. Résultats : peu de fautes grammaticales, une ponctuation plus que bonne (et les parlementaires, ça peut faire des phrases à rallonges avec des propositions dans d'autres propositions dans d'autres propositions... vous avez saisi l'idée). Je continue mes tests. Pour le moment je ne regrette pas mes 10$. J'ai discuté un peu avec le développeur qui est hyper réactif et à l'écoute.

Fun fact, je viens de donner 2 fichiers de plus d'une heure à mon MacBook Pro max à transcrire en même temps. C'est la première fois que je l'entends souffler comme un boeuf ;-)

avatar pat3 | 

Pour moi, il plante au démarrage lorsque je lui demande d'enregistrer le microphone. Bof.
Je n'avais pas de fichier audio à lui fournir, je vais essayer d'en trouver un pour tester.
(…)
Bon, idem avec un fichier audio. Je suis sur MacBook Pro M1, macOS Ventura 13.1, 16 Go de ram, je ne vois vraiment pas ce qui plante…

avatar pat3 | 

@pat3

Apparemment, c’est macOS 13.1, le problème. Après la mise à jour en 13.2, MacWhisper a correctement fonctionné.

avatar frankynov | 

Je suis en train de le tester sur mon MacBook Pro M1 8Gb, j'ai l'impression d'avoir denouveau mon MacBook Intel sur les genoux tellement il chauffe :D
Mais c'est hyper impressionnant, ma compagne passe sa journée à retranscrire des meetings en tchèque, anglais, français, ça va lui changer la vie.
Il semble que de nouvelles versions sont dans les tuyaux avec des chapitrages et consolidations de phrases, hâte de voir ça !

CONNEXION UTILISATEUR