MacWhisper 2 télécharge les modèles de transcription à la demande

Nicolas Furno |

MacWhisper est un utilitaire bien pratique qui transcrit l’audio en local sur le Mac et qui le fait particulièrement bien. Sous le capot, l’app exploite Whisper, un modèle de transcription proposé par OpenAI et qui repose sur un apprentissage automatisé qui lui apporte un avantage décisif. C’est ce qu’avait prouvé un petit exercice de dictée, où le modèle d’OpenAI ridiculise les solutions traditionnelles proposées par Apple et Google.

Dictée surprise pour Apple, Google et OpenAI : qui est le meilleur élève ?

Dictée surprise pour Apple, Google et OpenAI : qui est le meilleur élève ?

Le créateur de MacWhisper a amélioré son app avec une version 2.0 qui apporte un changement bienvenu : au lieu d’intégrer les modèles d’OpenAI dans le téléchargement initial, l’app les récupère désormais par la suite. C’est intéressant, car si les modèles de base peuvent être légers (80 Mo pour le plus petit), les plus avancés qui offrent les meilleurs résultats sont très lourds : jusqu’à 3 Go pour le modèle « Large » qui est le plus performant. Jusque-là, ces 3 Go devaient être téléchargés avec l’app, la première fois, mais aussi à chaque mise à jour par la suite, même s’il ne s’agissait que d’une correction de bugs.

L’interface de MacWhisper 2 pour télécharger les modèles de transcription. Ici, pendant le téléchargement du modèle large, le plus gros d’entre tous.

Avec la nouvelle version, MacWhisper ne pèse que 5,6 Mo au téléchargement et l’app occupe 12,4 Mo sur le volume de stockage du Mac. Lorsque vous l’ouvrirez pour la première fois, l’interface dédiée au téléchargement des modèles s’affiche et vous demande d’en choisir au minimum un. Télécharger le modèle de base (150 Mo) est une bonne idée pour débuter, mais vous pouvez directement récupérer le plus gros si vous le souhaitez. Les modèles sont stockés dans la bibliothèque de l’utilisateur et ils sont automatiquement exclus des sauvegardes Time Machine.

En sortant ainsi les modèles, MacWhisper simplifie ses futures mises à jour, qui sont par ailleurs désormais proposées depuis l’app. Auparavant, il fallait repasser par le site web pour la version gratuite et par ses mails pour la version pro. C’est d’ailleurs un autre avantage, il ne reste plus qu’une seule app et l’accès aux fonctions payantes, dont les modèles les plus avancés, se fait dorénavant en saisissant une licence. Pour finir, les modèles peuvent se mettre à jour en parallèle de l’app, même si ce sera sans doute moins fréquent.

MacWhisper 2.0 apporte d’autres améliorations, comme un aperçu du texte transcrit en déplaçant le curseur sur la barre de progression. L’interface a aussi été revue, il est notamment possible de cliquer sur un élément pour lancer directement la lecture, tandis que l’édition de ce segment se fait via un bouton dédié. L’app intègre aussi une liste des fonctions prévues avec la possibilité de voter pour celles que l’on préfère, une fonctionnalité fournie grâce au module Roadmap qui vient de sortir et qui a été co-créé par le développeur de MacWhisper.

Le panneau avec toutes les fonctions prévues pour MacWhisper et les votes des utilisateurs.

MacWhisper est proposé gratuitement avec seulement les modèles par défaut, qui sont bons, mais pas exceptionnels. Pour accéder à toutes ses fonctionnalités et notamment les modèles plus évolués, il faut acheter une licence de MacWhisper Pro, facturée environ 15,6 € TTC sur le site officiel. macOS Ventura est nécessaire et un Mac Apple Silicon avec 16 Go de RAM ou plus est recommandé pour les modèles les plus avancés.

avatar John Kay | 

Le modèle de transcription le plus avancé est très gourmand en ram.
L’application prend entre 4go et 18go d’après le moniteur d’activité.
Le développeur prévient que l’appli risque de planter en utilisant ce modèle avancé sur les mac avec 8go de Ram, mais tout se passe bien sur mon MacBook Air M1 et ses 8gig

avatar PiRMeZuR | 

@John Kay

Il y a une fuite de mémoire, les modèles déjà en mémoire ne sont pas réutilisés lorsqu'on change de modèle. Du coup, après quelques changements entre les plus gros, on peut vite atteindre 10-15 Go. Mais si tu redémarre l'appli et reste sur un modèle, ça ne prendra pas beaucoup plus que la taille du modèle, c'est-à-dire 4 Go pour le plus gros.

avatar Absolut Piano | 

Merci pour votre premier article qui parlait de ce super logiciel !
Je pense qu’il ne reste que très peu de temps avant qu’il soit absorbé par Apple, ou autre, il est tellement fantastique.

avatar vincentn | 

@Absolut Piano

Les modèles derrière étant basés sur Whisper d’OpenAI, aucune chance.
La seule chose qu’Apple pourrait faire, c’est de faciliter son intégration à ses propres frameworks et technologies de ses OS.

avatar Denauw88 | 

Pourquoi sont-ils automatiquement exclus de TM? Normalement TM prend en compte tout l'ordinateur et ses fichiers non?

avatar John Kay | 

@Denauw88

Je crois qu’il y a confusion. Lors de la sortie de la 2.0, les modèles étaient téléchargés dans le répertoire Documents. Ce qui pouvait poser problème pour la synchronisation iCloud des personnes qui n’ont que la version gratuite. Le développeur a mis rapidement l’application à jour pour que les modèles soient téléchargés dans la Bibliothèque (dans le dossier Application support je crois bien).

avatar Denauw88 | 

@John Kay

Oui comme cela, ces gros fichiers ne rentrent pas dans le stockage iCloud. Mais cela n'a rien à voir avec TimeMachine qui copie exactement le contenu du Mac quand même? Ou alors il y a des dossiers non-repris par défaut dans TimeMachine? Cela me parait étrange.

avatar John Kay | 

@Denauw88

Voilà, d’où la confusion dans l’article. J’ai vérifié sur ma Time Machine, et la bibliothèque utilisateur où partent les modèles de MacWhisper est bien sauvegardée avec le reste.

avatar fylg | 

Un iPhone serait il suffisamment puissant pour faire tourner ce type de modèles? Le modèle est il suffisamment performant pour reconnaître du vocabulaire technique (par exemple médical)? Si c’est le cas dragon à dû soucis a se faire….

avatar vincentn | 

@fylg

Les derniers modèles d’iPhone, oui, fort probablement.

Whisper est déjà très bien, mais je pense qu’un modèle plus spécialisé car entrainé sur un corpus à dominante médicale serait probablement meilleur (mais en revanche moins bon pour des usages plus quotidiens).

avatar bunam | 

ChatGPT : non
Ce genre d'outil : ouiiiiiiiiiiiii

avatar R-APPLE-R | 

20€ ChatGPT / 20€ Midjourney / 16 € MacWhisper + tout les autres abonnements ça commence à faire cher, trop cher 👿

avatar Almux | 

@R-APPLE-R
😳 "Abonnement"? La licence MacWhisper n'est-elle pas unique? 🧐

avatar R-APPLE-R | 

@Almux

Haaa possible 🧐🤔😈

avatar Mac-Bain | 

@Almux

Si elle l’est. J’ai eu 20% par hasard car j’avais testé la version gratuite. 10 ou 11 dollars à payer pour ça, c’est peu cher payé. Évidemment tout dépend de ses besoins. On bascule, à mon sens, depuis un moment dans une ère où plus rien ne coûte cher (la encore c’est relatif). C’est l’addition du tout qui peut faire mal. Mais ancien utilisateur de Dragon, je suis très vite passé sur ce MacWhisper redoutable

avatar zypic | 

Les développeurs ont-ils prévu de faire le portage sur iOS/iPadOS ?
Ont-ils prévu d’avoir des bibliothèques spécialisées médical/juridique/… ?

avatar starsk | 

Petit correctif : MacWhisper 2 Pro et free marchent très bien sur Monterey and MacIntel. Ca rame et ca souffle, mais ca marche ;)

avatar Emile Courrier | 

À noter que j’ai essayé de voir ce que ça donnait en lui donnant à décoder un morceau en FLAC, format audio qui n’est pas dans la liste des formats reconnus… Ça a parfaitement fonctionné avec une retranscription quasi sans faille avec le modèle Small… Impressionnant !

avatar blueblood | 

Pour ma part, j’ai la version Pro en 1.9, pas moyen de trouver comment télécharger la version 2.0.

Je viens de faire un essai avec un fichier de 20 minutes, une conversation dans un café moi et une autre personne, c’est une catastrophe absolue. le logiciel reconnait 2 voix, et sépare les locuteurs, mais c’est à peu près la seule chose qu’il parvient à faire. Tout le reste est quasiment impossible à comprendre, alors qu’à l’écoute, c’est très clair, le son est net, je ne vois même pas comment la retranscription est aussi calamiteuse !!!!!

avatar languedoc | 

Ah ça ! je suis pire qu'un novice !
J'ai un fichier Mp4, je fais comment ? N'y a-t-il pas quelque part un tuto pour les nuls ?
Merci d'avance

CONNEXION UTILISATEUR