AI Transcription transcrit de l’audio sur le Mac grâce au moteur d’Apple

Nicolas Furno |

AI Transcription est une nouvelle app destinée aux Mac qui se charge elle aussi de transcrire le texte contenu dans un fichier audio ou une vidéo. Contrairement à MacWhisper que l’on évoquait la semaine dernière et qui repose sur Whisper d’OpenAI sous le capot, ce nouveau venu utilise le framework Speech d’Apple. C’est le moteur de transcription que l’entreprise exploite dans Siri ou encore pour son mode dictée. Il présente l’avantage de fonctionner en local et d’offrir des résultats similaires à ceux que vous avez l’habitude de croiser si vous dictez du texte à vos appareils pommés.

Son interface est très simple : la fenêtre sert de zone de dépôt pour le fichier à transcrire, ou vous pouvez utiliser le bouton + pour chercher un fichier via le Finder. La transcription se lance dans la foulée et quand elle est terminée, vous obtiendrez le résultat dans un pop-up avec horodatage. Le texte peut également être exporté dans les mêmes formats que MacWhisper, du simple fichier texte au .srv pour les sous-titres.

La transcription, approximative, proposée par Ai Transcription pour le même fichier que j’avais utilisé pour MacWhisper.

Pour faire simple, c’est le même concept que MacWhisper, mais avec le moteur d’Apple et une app distribuée gratuitement sur le Mac App Store. Est-ce pour autant une meilleure app ? Pas vraiment, car le framework Speech a plusieurs défauts importants. Tout d’abord, il n’agit que sur une poignée de langues et vous devez en sélectionner une à la fois dans les paramètres d’AI Transcription. Notez qu’il faudra au préalable l’avoir configurée dans les réglages de macOS, pour que les fichiers associés soient téléchargés en local.

Mon Mac Studio a demandé environ deux minutes pour traiter le même fichier de huit minutes que j’avais utilisé pour mes tests de MacWhisper. C’est nettement moins bien que cette dernière avec le modèle de base, mais mieux que le modèle avancé. Toutes ces différences s’effacent néanmoins face à la qualité du résultat final et là, c’est une autre histoire. Comme vous pouvez peut-être en juger à ma capture d’écran ci-dessus, le travail réalisé par Apple est loin d’être satisfaisant et il est bien loin derrière ce que Whisper sait faire. Mais je ne veux pas trop en dire, car ce sera l’objet d’un futur article sur le sujet…

En attendant, l’interface d’AI Transcription est traduite en français et l’app nécessite macOS 13.1 ou une version plus récente. Elle est gratuite et sans publicité d’aucune sorte.

avatar Shaskan | 

Apple semble vraiment à la ramasse en terme d’IA non ?

avatar armandgz123 | 

@Shaskan

Il me semble qu’Apple fonctionne comme ça : ils sont souvent à la ramasse dans un domaine, jusqu’à que leur offre soit prête et qu’ils la présentent d’un coup

avatar cecile_aelita | 

@Shaskan

Comme dans la plupart des domaines non? 🫤

avatar BeePotato | 

@ Shaskan : « Apple semble vraiment à la ramasse en terme d’IA non ? »

Sur ce coup, pas forcément.

On a en effet ici deux choses pas tout à fait comparables. Le service de dictée de MacOS est une fonction de l’OS mise à disposition des applications — un truc qui doit pouvoir tourner en plus de ce que fait l’application dans laquelle on l’utilise, démarrer quasi-instantanément et transcrire en temps réel. Il ne peut donc pas utiliser un gros modèle, que ce soit en termes d’occupation mémoire ou de puissance CPU/GPU nécessaire.
Ce n’est pas pensé pour servir de base à une application dédiée 100% à de la transcription, comme celle-ci. Il n’est donc pas étonnant que ce ne soit pas adapté à cet usage.

À côté de ça, une application utilisant un gros modèle tel que Whisper et dont le mode de fonctionnement est de consacrer autant de ressources que nécessaire à la transcription donnera évidemment de meilleurs résultats. Surtout si on ne s’embarrasse même pas de la contrainte d’une réponse en temps réel.

avatar marc_os | 

-

avatar Furious Angel | 

En tant que journaliste je compte énormément sur jte développement de ces solutions. MacWhisper semble prometteur mais il faut quand même vérifier les résultats.

Sinon, le faire avec la technologie d’Apple, ça n’a pas trop d’intérêt… loin d’être assez fiable

avatar MacPlusEtc | 

Il n’est pas vraiment étonnant qu’une technologie en local soit moins performante qu’une technologie reposant sur les capacités de serveurs… ca me rappelle les informaticiens des mini VAX qui nous regardaient en rigolant avec nos macs 512k, nos disquette 800 k et 4D. 5 ans après, ils ne rigolaient plus du tout, et 10 ans après encore moins, ils avaient disparu… en tout cas, leurs VAX qui étaient pourtant de très bonnes machines…

Ce n’est en réalité qu’un début.

Bien entendu, l’AI sur les serveurs utilisant des quantités phénoménales de données ne va pas disparaître. Mais il y a fort à parier que l’AI reposant sur du calcul en local va relativement rapidement amener des services « suffisants » pour beaucoup de nos besoins…

avatar Nicolas Furno | 

@MacPlusEtc

Euh, Whisper travaille aussi en local, il n’y a aucune différence avec le moteur d’Apple sur ce point.

avatar vincentn | 

Je suis curieux du poids de cette app, modèles inclus ?

Elle semble assez basique à tout point de vue, limite un Proof of concept.

Sinon, il existe aussi (mais il y a en a plein d'autres), en ligne de commande, textra, qui exploite également les frameworks d'Apple :

https://github.com/freedmand/textra

avatar Nicolas Furno | 

@vincentn

Elle est en effet toute légère, puisqu’elle repose sur le moteur et les modèles d’Apple qui sont gérés et stockés par macOS. Dans l’idée, ça revient à utiliser le mode dictée, mais plus rapidement et sans avoir à écouter l’enregistrement.

Et oui, je suis bien conscient que ce n’est pas la première. Elle a l’avantage d’être gratuite et sur le Mac App Store, ca simplifie son utilisation pour le plus grand nombre.

avatar vincentn | 

@nicolasf

Oui. Cela sent l’effet d’aubaine (liée à toutes les apps, solutions et articles sortis dernièrement) d’une app développée sur un « bout de table ».

Cela me rappelle la vague des apps de scan/ocerisation d’il y a quelques mois. Seules quelques unes ont été plus loin que l’app de base s’appuyant sur le framework proposé par Apple et ont continuée à être maintenue.

Espérons qu’on ait quelques apps qui suivent la trace de MacWhisper avec l’offre d’OpenAi, celle d’Apple ou d’un autre en proposant une interface et des fonctionnalités aux petits oignons (reconnaissance des différents locuteurs, etc.)

avatar MacPlusEtc | 

@nicolasf

"Whisper travaille aussi en local"

Ha, je suis allé sans doute un peu vite en besogne, pensant que si l’opération se faisait avec openAI, elle se faisait sur leurs serveurs…
Merci de cette correction…

avatar vincentn | 

Les modèles entrainés se font sur des serveurs et nécessitent en effet beaucoup de puissance de calcul et de place.
Après, l'exploitation en elle-même de ce modèle peut se faire à distance ou en local. Dans ce cas ils sont juste téléchargés sur ta machine (et peuvent prendre plusieurs gigaoctets). Après il y a l'optimisation de l'application, quel type de modèle est utilisé, etc.
Bref, plein de paramètres qui peuvent faire varier énormément la qualité des résultats.

avatar occam | 

@MacPlusEtc

🛵 🚜 « ca me rappelle les informaticiens des mini VAX qui nous regardaient en rigolant avec nos macs 512k »

Intéressant, car cela ne cadre pas du tout avec mon expérience.
J’ai eu mon 512k pour travailler sur un projet déjà en cours chez DEC : utiliser le Mac comme front-end graphique pour VAX. Pas simplement comme terminal ; des émulations VT100+, ça existait déjà. Mais pour partager le traitement : le « heavy number crunching » sur VAX, la visualisation en local sur Mac, utilisant les nouvelles possibilités de QuickDraw etc. Je vous garantis que les gens de DEC avec qui je travaillais prenaient le Mac très au sérieux et voulaient ancrer la complémentarité et subsidiarité entre les deux plateformes.

Et ce n’est en aucun cas le Mac qui a hâté la mise au rancart des VAX et Cie.
À ce moment-là, 10 ans plus tard, le Mac n’était plus en fière posture, et son pronostic vital engagé. Pour faire bref : l’essor du modèle client-serveur sur des machines cheap ; les erreurs stratégiques du management de DEC (la seule gageure d’entretenir 4 systèmes et architectures differentes aurait coulé une moindre barque) ; l’hémorragie financière ; la désertion d’équipes OS cruciales autour de Dave Cutler, parti chez Microsoft créer Windows NT (OS dont on peut arguer qu’il sauva MS en entreprise autant que NeXT sauva Apple tout court, mais d’une manière bien moins perceptible pour le public.)

Les réserves émises alors par les ingénieurs de DEC à l’égard de ce qui était calculable en local versus ce qui nécessite une capacité scalable et distribuée visaient des unités qui ont depuis changé plusieurs fois d’échelle, voire d’exposant. Mais sur le principe, elle sont toujours pertinentes ; davantage même, s’agissant de problèmes en deep AI.

avatar oomu | 

@occam

un témoignage qui m’apparaît pertinent et en phase avec nombre d'anecdotes connues.

avatar MacPlusEtc | 

@occam

"Et ce n’est en aucun cas le Mac qui a hâté la mise au rancart des VAX et Cie."

Si vous avez pensé que c’est ce que je prétendais, je me suis fort mal exprimé. Je sais qu’effectivement dans certains contextes, au contraire, le mac a été utilisé avec des vax. Et que Windows NT reposait sur un apport du principal artisan des systèmes vax.
Et effectivement, 10 ans après, j’étais toujours sur 4D, mais sur Windows 95 puis NT… ça allait beaucoup, beaucoup plus vite… je ne suis revenu au mac qu’avec le core duo.

Je voulais juste rappeler que ce qui n’était possible que sur de grosses machines le devenait sur de toutes petites quelques années après.
Mais puisqu’il apparaît que l’application en question travaille déjà en local, mon intervention est à côté of the plaque sur toute sa largeur 😅….

avatar starsk | 

Macwhisper est vraiment génial. Je travaille dans l'audio-visuel, et je peux vous dire que je l'ai déjà adopte en production. Il me permet de faire des transcripts d'interviews... super pratique. Des logiciels le faisait déjà mais pas à 10€. Ca mouline fortement sur mon MBP 2015, mais le résultat est la.

avatar Gilianda | 

Moi aussi ça mouline fortement sur mon MBP qui est un Intel de 2020 (2Ghz, core i5 4 coeurs 16 Go de Ram) mais le résultats est extraordinaire. Il me faut quand même près de 6h pour retranscrire 1h d'audio en poussant les réglages au maximum (modèle avancé et accurate au plus haut).

@nicolasf : est-ce que sur un Mac Studio, en poussant tout au maximum dans MacWhisper, la durée de retranscription est plus courte et est-ce que le Mac Studio sait la gérer sans faire beaucoup entendre ses ventilateurs comme mon MBP 2020 ?

avatar John Kay | 

@Gilianda

Je me permets de vous répondre sur la vitesse de transcription de MacWhisper.
Sur un MacBook Air m1, sans ventilateur donc, il lui a fallu environ 1h pour dérouler 60 minutes d’audio dans la qualité maximale. Ça va donc bien plus vite !

avatar Nicolas Furno | 

@Gilianda

Oui, c’est trois minutes pour mon fichier de huit minutes, j’avais détaillé dans la news dédiée à MacWhisper. Et les ventilateurs ne bronchent jamais avec le Mac Studio, c’est l’avantage. Peut-être que sur des fichiers de plusieurs heures, on finirait par les entendre, mais je ne suis même pas sûr.

avatar pocketalex | 

"Macwhisper est vraiment génial. Je travaille dans l'audio-visuel, et je peux vous dire que je l'ai déjà adopte en production"

je suis en train de le télécharger essentiellement dans ce but :)

avatar Powerdom | 

Au boulot, le CSE paye une secrétaire pour transcrire 6 à 8 heures de réunion mensuelles enregistrée.
Je crois que c’est bientôt la fin de son travail.

avatar ando | 

Ça fait penser que la transcription des messages audio répondeur qui est sorti il y a quelques annees aux usa n’est toujours pas dispo en france !

avatar ysengrain | 

J'ai fait un essai. 3 h après pour un fichier sonore de 30" rein n'était apparu.
Je suis de plus en plus manche

avatar Nicolas Furno | 

@ysengrain

Ça dépend fortement du Mac, mais essaie peut-être avec un fichier audio plus court.

avatar cv21 | 

Pour information, l'éditeur du logiciel pour "podcast et radio" Hindenburg vient de présenter la version 2 (beta). Au menu : de la transcription avec la possibilité d'éditer l'audio depuis le texte !
https://www.youtube.com/watch?v=wgE6HLKxcFs (vers la 17e minute)

avatar fleeBubl | 

Bien, bien bien !

Donc du coup, rien n’empêcherait ces deux transcripteurs d’arriver sur iPad et pour plus de vélocité sur ceux équipés M1/M2 ?

CONNEXION UTILISATEUR