MacWhisper peut transcrire l’audio généré par le Mac et ses apps
MacWhisper a reçu une grosse mise à jour avec notamment une nouveauté intéressante : cette app spécialisée dans la transcription audio grâce au moteur Whisper d’OpenAI peut désormais transcrire de l’audio généré par le Mac. Cette fonction est présentée comme une bêta et elle est réservée à macOS Ventura qui offre de nouvelles API à cette fin. L’interface propose désormais trois modes pour charger un fichier audio ou vidéo, utiliser le microphone ou enregistrer l’audio d’une app.
Vous pourrez alors choisir d’enregistrer l’intégralité du système, ce qui veut dire que tous les sons générés par le Mac, quelle que soit l’app d’origine. Autre option, un filtre pour ne conserver qu’une partie des apps, comme Safari dans mon exemple visant à transcrire cette vidéo diffusée par Apple.
L’app se charge ensuite d’enregistrer l’audio, mais sans le transcrire en parallèle, malheureusement. Il faut rappeler que le moteur Whisper demande encore beaucoup de puissance, surtout avec les modèles les plus évolués. Même si MacWhisper améliore cet aspect avec la mise à jour en sollicitant tous les cœurs CPU du Mac, le processus se fait toujours en deux temps et le travail de transcription débute à la fin de l’enregistrement seulement.
Malgré tout, c’est un ajout utile pour pouvoir transcrire n’importe quelle vidéo et récupérer un fichier de sous-titre dans la foulée (pensez à lancer la lecture en même temps que l’enregistrement pour la synchronisation). Cela peut aussi servir pour transcrire des discussions vidéo ou audio, à condition de prévenir vos correspondants toutefois, mais cela peut être une bonne option pour garder une trace d’une réunion, par exemple.
MacWhisper 2.15 améliore aussi ses performances, avec jusqu’à 40 % de gains à attendre d’après le développeur grâce à l’utilisation de tous les cœurs CPU disponibles. J’ai repris le fichier audio de huit minutes qui avait servi à mes premiers tests et l’opération s’est terminée sur mon Mac Studio en 2 minutes et 45 secondes, contre 3 minutes et demi à l’époque. Cela correspond plutôt à un gain de 20 % des performances, pas autant que prévu, mais ça reste appréciable.
Le moteur de téléchargement des moteurs de transcription a été revu, notamment pour permettre de reprendre un téléchargement interrompu. MacWhisper hérite enfin d’une nouvelle icône. L’app reste compatible avec macOS Monterey et plus, un Mac Apple Silicon avec 16 Go de RAM est recommandé, mais l’app fonctionne aussi sur les Mac Intel et ceux avec 8 Go de mémoire vive. Elle est gratuite au téléchargement, mais une partie des fonctions est payante, comptez 17 € pour une licence personnelle.
Il y a des travaux en cours pour adapter whisper.cpp au coprocesseur dédié (ANE) qui devraient à terme faire leur chemin dans cette app et d’autres. Ça permettra de décharger le processeur principal et d’accélérer encore la transcription.
https://github.com/ggerganov/whisper.cpp/discussions/548
Macwhisper est une application formidable.
@starsk
Le développeur est vraiment bon oui 😈
super app et ce n'est que le début , je l'utilise en version PRO !
Excellente application que j’ai découverte grâce votre article !
Connaissez-vous une application qui réalise l'inverse : du texte vers la voix en ayant la possibilité de moduler les intonations des phrases, mots, pour se rapprocher d'une lecture moins "robotique" ?
@cv21
Voilà https://www.codeur.com/blog/generateur-voix-ia/
@Jugurta
Merci ! 😀
@cv21
Raccourci : voir dans la galerie. Moi je l’avais fait moîmeme c’est très simple à faire.
Pour une bonne lecture, il suffit de bien mettre la ponctuation.
@cv21
https://github.com/suno-ai/bark
Juste extraordinaire!
Quel outil pour les étudiants !
Ahhhh intéressant aussi pour les personnes sourdes et malentendantes maîtrisent le français !
Vais tester ça.
y-a-t il une difference entre l'appli sur github et celle sur l'app store ?
mais cette fonction est reservée a la version pro non ?
PRO features:
Record and transcribe system audio (to record meetings for example)
donc il faut etre pro pour enregistrer l'audio systeme