Dictée surprise pour Apple, Google et OpenAI : qui est le meilleur élève ?

Nicolas Furno |

Poussée par OpenAI, la révolution des « intelligences » que l’on dit artificielles est en train de bouleverser de nombreux domaines. Création de nouvelles images, génération de textes, recherche de photos ou encore transcription de l’audio : les modèles neuronaux ouvrent à la fois de nouvelles voies dans l’informatique et offrent aussi des améliorations spectaculaires à celles qui existaient déjà.

Je me suis penché sur un domaine bien connu pour cet article : la transcription de l’audio. J’avais pu vérifier les prouesses de l’IA en essayant MacWhisper, un nouvel utilitaire pour le Mac qui repose pour cette tâche sur le moteur Whisper fourni par OpenAI. Les résultats sont bluffants, notamment sur des exemples compliqués et surtout en utilisant la version la plus avancée du modèle fourni par OpenAI.

MacWhisper utilise OpenAI pour transcrire de l’audio en local sur votre Mac

MacWhisper utilise OpenAI pour transcrire de l’audio en local sur votre Mac

Whisper marque des points, mais est-il réellement meilleur que les acteurs traditionnels ? Pour répondre à cette question, nous avons imaginé une dictée des IA : je me suis enregistré en train de lire un texte, avant de diffuser cet enregistrement aux trois candidats du jour pour qu’ils le transcrivent. Apple était au rendez-vous bien entendu, Google aussi et le petit dernier, OpenAI. À chaque fois, j’ai activé le mode transcription, laissé chaque app faire son travail avant de récupérer le résultat sans le toucher pour enfin le corriger en le comparant au texte original.

Pour ne rien divulgâcher, le nom du candidat a été effacé sur cette copie.

Comme pour toute dictée, il fallait un texte. On aurait pu choisir un classique de la littérature française, mais ce n’était pas drôle. Tant qu’à tester ces fameuses intelligences artificielles, autant aller jusqu’au bout : nous avons posé une question à ChatGPT et c’est sa réponse qui sert de base. Cette question (parfaitement objective), elle a consommé beaucoup d’octets sur les serveurs de MacGeneration ces 24 dernières années : « Pourquoi le Mac est-il meilleur que le PC ? ». La question suivie de la réponse proposée par ChatGPT forment le paragraphe de 126 mots que j’ai enregistré et qui a servi à cette dictée des IA :

Pourquoi le Mac est-il meilleur que le PC ? Il n'y a pas de réponse objective à la question de savoir si un Mac est meilleur qu'un PC, car cela dépend des préférences personnelles de chacun et de l'utilisation que l'on souhaite en faire. Cependant, certains utilisateurs préfèrent les Mac pour leur simplicité d'utilisation, leur design élégant et leur intégration avec d'autres produits Apple tels que l'iPhone et l'iPad. Les Mac sont également réputés pour leur fiabilité et leur sécurité, et ont généralement moins de problèmes de compatibilité logicielle. D'autres préfèrent les PC pour leur flexibilité, leur prix plus abordable et leur meilleure compatibilité avec les logiciels professionnels. Il est donc important de peser les avantages et les inconvénients de chaque plateforme avant de prendre une décision.

Si vous voulez écouter ma douce voix, j’ai mis en ligne l’enregistrement audio sur YouTube. Vous pourrez au passage juger de ma prononciation pas toujours parfaite et notamment repérer la petite erreur que j’ai faite sur « que l'on souhaite ». Cela a entraîné beaucoup de fautes comme vous le verrez, mais c’est principalement à cause du professeur qui a mal lu son texte. Autre entorse au format classique, je n’ai pas dicté les signes de ponctuation, laissant à chaque candidat le soin de les retrouver.

Le cadre étant posé, corrigeons sans plus attendre les copies, en commençant par celle d’Apple.

Apple • 2/10 • bien trop distrait

Pour Apple, la transcription s’est faite en utilisant le mode dictée d’iOS dans l’app Notes, un mode qui a gagné en capacité avec iOS 16. Depuis la dernière mise à jour majeure du système d’exploitation des iPhone et iPad, la dictée peut gérer automatiquement la ponctuation, ce qui nous intéresse particulièrement ici, puisque c’est l’un des critères évalué sur le résultat final. Malheureusement, mes premiers tests se sont avérés très décevants.

avatar chimoult | 

Stop parler IA svp ! Le marketing a un moment c bon quoi !
On parle de développement applicatif poussé !
Une vrai IA penserai en priorité a sa propre survie donc exterminerai l’espèce humaine, on en est loin ….

avatar jopaone | 

@chimoult

Vous semblez seulement évoquer l’IA dite « forte » alors que l’intelligence artificielle est une discipline très vaste qui regroupe énormément de techniques et de méthodes qui ont évolué avec le temps. Actuellement on peut très bien parler d’IA lorsque l’on parle de machine learning, même si les modèles sont dépourvus de conscience, cela n’est pas qu’un terme marketing.

avatar cecile_aelita | 

@chimoult

« Le marketing a un moment c bon quoi ! »

Vous voulez dire comme caser du « pro » toutes les 5mn pour tout et n’importe quoi 😏🤭? (Coucou la PS4 PRO🤭)

avatar fte | 

@chimoult

"On parle de développement applicatif poussé !"

Non non, on parle bien d’AI, c’est le terme technique consacré. De même que l’on parle bien de réseaux de neurones alors qu’il s’agit en réalité de calcul matriciel en mesh, mais tel est le terme technique consacré.

Ce n’est pas parce qu’un terme employé par toute une industrie ne te plaît pas, possiblement avec de bons arguments note bien, que tu peux décréter que ce n’est pas le terme à employer. De toute façon, le terme n’a aucune importance. La définition du dispositif technique désigné par ce terme l’est.

avatar nova313 | 

Et Alexa alors ? Après je ne sais pas s’il possède un mode de transcription.

Mais en tout cas, c’est assez marrant à lire, et ça me fait relativiser mon niveau catastrophique des dictées 😅

avatar Nicolas Furno | 

@nova313

Bonne remarque, mais en effet, il n’y a aucun mode dictée fourni par Alexa à ma connaissance qui aurait permis de réaliser l’exercice.

avatar nova313 | 

@nicolasf

Je sais que dans l’app Alexa, il y un historique des requêtes dictées, mais je ne sais pas si ça prend en compte un texte aussi long.

avatar fredazou | 

Est-ce qu’on peut remplacer le dictée vocale, par ce logiciel macwhisper ?

avatar Nicolas Furno | 

@fredazou

Oui, mais uniquement sur le Mac. Il n’y a pas de version iOS pour le moment.

avatar fredazou | 

@nicolasf

Merci pour ta réponse rapide. Donc comme source audio tu le mets un micro. C’est bien ça ?

avatar Nicolas Furno | 

@fredazou

Oui, en gros il y a un mode où il peut transcrire ce qu’il entend. J’ai testé, les résultats sont aussi bons qu’en fournissant un fichier audio. Par contre, ce n’est pas forcément du temps réel selon la qualité du modèle.

avatar amonbophis | 

J’aimerais bien une comparaison avec dragon dictate, mais cela ne fonctionne que sous Windows (ou via crossover ou parallel)

avatar raoolito | 

en 2016, lors de l’enterrement de grand mère, ma mère avait ecris un texte pour lire durant la cérémonie et on m’avait chargé de le transcrire pour imprimer.
j’ai utilisé simplement la lecture/transcription du mac et ca a fonctionné nickel sur plusieurs pages.
je ne comprend pas comment ca a pu tomber si bas

avatar bozzo | 

@raoolito

C’est que, pour ce cas très particulier, il a fait un gros effort…

avatar raoolito | 

@bozzo

j’imagine bien plusieurs serveurs débattant de comment ils allaient gérer cette situation

avatar cecile_aelita | 

Super test et vraiment interessant de voir à quel point cette nouvelle IA est impressionnante.
Par curiosité, j'ai testé de dicter aussi votre texte sur mon Mac M1 (sous Big Sur) et mon iPhone 11 Pro (sous iOS16) (avec la dictée vocale dans note).
Alors OK, c'est pas terrible au niveau des fautes etc... mais je n'ai pas les trous que vous avez vous... 🫤.
Alors est ce que c'est parce que (par déformation professionnelle et à force de faire des dictées tous les deux jours à des enfants de 8 ans 😅), j'articule un peu mieux etc... mais c'est quand même pas aussi catastrophique que votre test chez moi 🙂 (par contre la grammaire et les accords... c'est pas son fort en effet 😅 - Ça me donnerait presque envie de faire un exercice avec mes CE2... je dicte un texte à SIRI projeté en live au tableau, et ils devront retrouver toutes les fautes ensuite 😅. Il y a moyen que ça les amuse beaucoup 🤭).
Par contre en effet, sous BigSur, mon Mac ne reconnait absolument aucune ponctuation (sauf bien sur si on lui dit explicitement, là c'est bon, il fait carton plein ^^).

(Macbook M1 Big Sur - dictée vocale)
« Pourquoi le Mac est-il meilleur que le PC il n'y a pas de réponse objective à la question de savoir si un Mac est meilleur qu'un PC car cela dépend des préférences personnels de chacun et de l'utilisation que l'on souhaite en faire cependant certains utilisateurs préfèrent les Mac pour leur simplicité d'utilisation leur design élégant et leur intégration avec d'autres produit Apple tels que l'iPhone et l'iPad les Mac sont également réputés pour leur fiabilité et leur sécurité et ont généralement moins de problème de compatibilité logiciel d'autres préfèrent les PC pour leur flexibilité leur prix plus abordable et leur meilleure compatibilité avec les logiciels professionnels il est donc important de peser les avantages et les inconvénients de chaque plate-forme avant de prendre une décision »

(iPhone 11 Pro - iOS16 - dictée vocale)
Pourquoi le Mac est-il meilleur que le PC il n’y a pas de réponse objective à la question de savoir si un Mac est meilleur qu’un PC car cela dépend des préférences personnelles de chacun et de l’utilisation que l’on souhaite en faire. Cependant certains utilisateur préfère les mecs pour leur simplicité d’utilisation, leur design élégant et leur intégration avec d’autres produits Apple telles que l’iPhone et l’iPad . L’iMac sont également réputé pour leur fiabilité et leur sécurité et ont généralement moins de problème de compatibilité logiciel d’autres préfèrent les PC pour la flexibilité. Leur prix plus abordable et leur meilleur compatibilité avec les logiciels professionnels. Il est donc important de peser les avantages et les inconvénients de chaque cette forme avant de prendre une décision.

avatar Mickaël Bazoge | 

« Ça me donnerait presque envie de faire un exercice avec mes CE2... je dicte un texte à SIRI projeté en live au tableau, et ils devront retrouver toutes les fautes ensuite 😅. Il y a moyen que ça les amuse beaucoup 🤭). »

On veut un retour d'expérience :)

avatar cecile_aelita | 

@MickaelBazoge

J’essaierai alors 😋

avatar tieg | 

Très intéressant ce macwhisper. Dommage qu'on ne puisse par remplacer la dictée vocale native par ça.
J'aimerai aussi bien savoir si ses traductions sont aussi bonnes, mais je ne suis pas assez bon linguiste, si ça tente quelqu'un ?

avatar Polyme | 

Joli test, qui me conforte sur le fait que Siri, et la dictée sont vraiment ultra nuls: je ne les utilise plus jamais tant les deux m’ont déçus.

avatar cecile_aelita | 

@Polyme

J’avoue que je ne m’en sers jamais aussi … mais je vais être franche … même si elle était parfaite … je pense que je ne m’en servirais pas 🫤.
Sûrement une histoire generationnelle car quand je vois le fils de mon copain … lui il s’en sert souvent !

avatar Bruno de Malaisie | 

Ce qui serait intéressant serait aussi de voir le pendant de cette expérimentation avec la langue anglaise / américaine ou le mandarin.
Peut être que les résultats seraient meilleurs compte tenu de nombre de locuteurs de ces deux langues...

Du coup, et pour le moment du moins, avec Apple, il n'y a pas d'intérêt d'utiliser ces features si cela signifie qu'il faut relire et corriger ensuite.
Car l'idée de ce genre de programme, c'est de gagner du temps... et non pas en perdre ensuite pendant la relecture...

avatar cecile_aelita | 

@Bruno de Malaisie

J’ai fait le test chez moi, c’est de très loin pas aussi catastrophique avec la dictée d’Apple 🙂.
Ça doit dépendre aussi de l’utilisateur 🙂

avatar Fids0769 | 

Le souci est que la fonction ponctuation ne fonctionne que pour une phrase. Surtout les questions. En gros il faut poser la question, interrompre la dictée et la reprendre pour que la question soit vraiment prise en compte. Si on en enchaine, Apple efface le « ? » et enchaîne sur l’autre phrase. Un peu nul…
Le résultat en dictant la ponctuation oralement est bien meilleur.

avatar Nicolas Furno | 

@Fids0769

Peut-être, mais c’est un défaut en 2023 face à ce que Whisper peut faire. Surtout quand c’est une nouveauté mise en avant l’année d’avant dans la mise à jour.

Espérons qu’ils puissent faire bien mieux à l’avenir !

avatar Romuald | 

J'ai utilisé dictée sur Mac pour transcrire des archives familiales, c'est effectivement assez la cata, mais quand on prend le soin d'articuler et de parler assez lentement, le combo (dictée-correction derrière) est toujours plus rapide que (tourner la tête pour déchiffrer une écriture manuscrite datant d'un siècle ou plus-taper le texte avec trois doigts en regardant le clavier-vérifier ce qu'on a tapé-controler avec le texte original). Tout le monde n'a pas le profil dactylo !
Le gros problème de 'dictée' avec les archives c'est qu'il ne connait pas le passé simple et confond l'imparfait et l'infinitif une fois sur deux.

Et le plus drôle : impossible de lui faire accepter 'gai'. Il transcrit systématiquement par 'gay'.

avatar Nesus | 

La dictée sur iOS 16 est une catastrophe.
J’ai passé beaucoup de temps à dicter des messages à mes différents à iPhone depuis le 4S. Et je n’ai jamais eu d’aussi mauvais résultats depuis qu’il est censé trouver le ponctuation tout seul. Avant c’était simple, je dictais la ponctuation et hormis sur les noms propres, je ne m’inquiétais pas. Maintenant, je relis l’ensemble et surtout, je ne dicte plus de message en voiture, le résultat est très souvent affreux.

Toutefois, l’exercice est sympa, mais il compare deux choses incomparables. Le premier fait la reconnaissance en direct et la transcription (pour Apple sans passer par des serveurs, ce que Google peut aussi faire et mieux d’après le test, ce qui ne m’étonne pas vu mon expérience).
Le deuxième récupère un fichier audio et le traite après coup, il y a donc plusieurs passes et une analyse qui peut se permettre de revenir en arrière et de faire une vérification globale.
Toutefois, la conclusion reste bonne, Apple et Google pourrait s’en inspirer. Surtout Apple depuis iOS 16. Je ne comprends vraiment pas comment nous en somme arrivé à un aussi mauvais niveau alors que jusqu’ici, ils étaient clairement au-dessus du lot…

avatar Cactaceae | 

@Nesus

Réponse avec mes petits doigts :
Oui vous avez raison, les résultats sont biaisés. Il faudrait refaire ces tests hors réseau et surtout avec le même temps de traitement, en live et tous en même temps.

Avec dictée :
Oui vous avez raison, les résultats sont biaisé, il faudrait refaire ses tests au réseau et surtout avec le même ton traitement en live et tous en même temps

😂

avatar Nesus | 

@Cactaceae

Dictée est vraiment devenu horrible… vivement qu’ils corrigent ça. Ça sera peut-être comme Siri qui ne captait plus rien et qui depuis la dernière mise à jour est enfin redevenu fonctionnel (je me console comme je peux).

avatar nomatech | 

Article intéressant sur Business AM à propos de la guerre Microsoft - Google sur l’IA avec leur moteur de recherche…

https://fr.businessam.be/weekend-fr-comment-le-bras-de-fer-entre-microsoft-et-google-pourrait-profiter-a-apple/

avatar Cactaceae | 

« Apple et le français » c’est désolant 🤷🏼‍♀️ et on pourrait probablement dire la même chose pour « Apple et les langues autre que l’anglais » 🙊
D’ailleurs, cela donne quoi en anglais justement ?
Et avec un humain de 20 ans 😈 ?

avatar Nicolas Furno | 

@Cactaceae

Il faudrait quelqu’un qui parle mieux anglais que moi pour tester. Mais je ne doute pas que ce serait mieux chez Apple et Google, ils ont forcément un meilleur moteur pour la langue la plus utilisée par leurs utilisateurs. Après, mieux que Whisper, je ne pense pas.

(Ah et il faudrait un humain de 20 ans, aussi… 😬)

avatar Cactaceae | 

@nicolasf

Hihi 🙊 j’ai bien une humaine de 20 ans, ma fille, mais elle est bonne en français (contrairement à sa mère) 😂

avatar GianoM | 

Article très intéressant et qui me concerne directement, car je suis sourd.

J’ai essayé la transcription vocale vers le texte avec mon iPhone et le résultat est des plus folkloriques avec Siri : des mots qui disparaissent et des contresens dignes de la science-fiction.

J’ai également essayé Ava - avec des résultats mitigés. Il est possible d’acheter 1 heure de transcription « premium » mais même avec ça, les contresens arrivent quand même et il y a eu des petits moments où la transcription s’arrête brutalement et reprend avec des phrases qui n’ont quasi aucun sens.

S’il existe un « meilleur » transcripteur audio - texte sur iPad (j’ai un iPad Pro M1), je suis preneur.

avatar tonstef | 

Testé macwhisper hier soir. Très impressionnant. Va bien me servir pour des conférences en anglais, néerlandais et même français 🥰

avatar iadry | 

Perso j’utilise souvent la transcription et je trouve que depuis peu sur mon iPhone c’est catastrophique.
Belle régression, un truc sur un serveur ?

avatar BlueVelvet | 

Excellent test, merci!

Au fait, pour iOS, existe-t-il une bonne app de transcription? Après Dragon je suis revenu à la dictée native d’Apple…

avatar RonDex | 

J’utilise tous les jours la dictée vocale avec Siri, c’est un véritable enfer.
Merci pour ce comparatif. Ça m’intéresse énormément. On va beaucoup plus vite à écrire un courrier ou un message avec la dictée vocale.

CONNEXION UTILISATEUR