Fermer le menu
 

Reconnaissance vocale sur Mac : test de Dragon Dictate 4

Anthony Nelzin-... | | 17:00 |  19

L’histoire est décidément un éternel recommencement. Au début des années 2000, iListen était capable de transcrire un enregistrement audio en fichier texte grâce à un « TranscriptionPak » optionnel. En abandonnant le moteur de Philips pour celui de Nuance et le nom d’iListen pour celui de Dictate, le logiciel de reconnaissance vocale de MacSpeech a perdu cette fonction, unique sur Mac, en 2008.

Elle est toutefois revenue deux ans plus tard, quoique sous la forme d’un nouveau logiciel, Scribe… pour n’être que mieux abandonné quelques mois plus tard, à la faveur de l’acquisition de MacSpeech par Nuance. Depuis, la société américaine s’est surtout attachée à intégrer à Dictate les fonctions de son cousin sur PC, un chantier pour l’essentiel terminé.

Ne restait qu’une chose à faire : redonner à Dictate son pouvoir de transcrire un enregistrement audio en fichier texte. C’est justement la principale nouveauté de Dragon Dictate 4, qui est aussi censé mieux s’intégrer à OS X et être plus rapide. De quoi amener Dragon Dictate pour Mac au niveau de Dragon NaturallySpeaking pour PC ? La réponse dans notre test.

De la reconnaissance vocale sous stéroïdes

À l’époque où il portait encore le nom de MacSpeech, Dictate était déjà un excellent logiciel de reconnaissance vocale. Il s’est amélioré de version en version, pour corriger tous les défauts encore présents. Presque tous, du moins : si les recherches en matière d’intelligence artificielle ont fait des progrès fabuleux, les logiciels de reconnaissance vocale demeurent incapables de comprendre le sens d’une phrase, ni même celui d’un mot.

De fait, ils travaillent à partir des plus petites unités discrètes, les phonèmes : s’ils sont incapables de les capter avec précision, tout espoir de reconnaissance est vain. C’est pourquoi MacSpeech et Nuance imposaient le port de micro-casques spécifiques, chargés de fournir au logiciel un signal sonore de la meilleure qualité possible, ou du moins aux défauts préalablement identifiés. Ce n’est plus le cas : s’il ne faut pas espérer se passer totalement d’un micro-casque, on peut désormais utiliser Dragon Dictate sans peine avec de simples EarPods d'iPhone.

Au premier démarrage, Dragon Dictate vous demande de lire quelques paragraphes pour commencer à s’adapter à votre voix — une étape fort utile, mais d’autant plus pénible que la version PC de Dictate, NaturallySpeaking, s’en passe complètement. À mesure que vous utilisez le logiciel, votre profil s’enrichit et la transcription est de plus en plus rapide et précise. Dragon Dictate peut gérer plusieurs profils, correspondant à plusieurs voix et/ou plusieurs langues.
Au premier démarrage, Dragon Dictate vous demande de lire quelques paragraphes pour commencer à s’adapter à votre voix — une étape fort utile, mais d’autant plus pénible que la version PC de Dictate, NaturallySpeaking, s’en passe complètement. À mesure que vous utilisez le logiciel, votre profil s’enrichit et la transcription est de plus en plus rapide et précise. Dragon Dictate peut gérer plusieurs profils, correspondant à plusieurs voix et/ou plusieurs langues.

Reste que certains phonèmes se distinguent en plusieurs allophones qui peuvent se confondre selon l’accent ou l’élocution (père peut se prononcer [pɛr], [pɛʀ] ou [pɛʁ]), et qu’une même suite de phonèmes peut correspondre à des mots différents (/pɛʁ/ peut donner père, perd, pair ou paire). Les différentes possibilités sont donc comparées à un dictionnaire de 150 000 mots à l’échelle du mot, et à un corpus de cooccurrences à l’échelle de la phrase. La proposition retenue est celle qui obtient le plus grand degré de confiance, c’est-à-dire celle qui est la plus à même de correspondre à une phrase correcte.

Cette opération n’est pas aussi rapide que l’on pourrait le vouloir, si bien que l’on perd le fil de son propos aussi bien en attendant la transcription pour la corriger si nécessaire, qu’en poursuivant la dictée en subissant les éventuelles erreurs. Or le logiciel n’est jamais aussi précis que lorsqu’on lui fournit des phrases complètes : il faut un petit temps pour s’adapter à son fonctionnement, un temps qu’il met lui-même à profit pour s’adapter à votre façon de parler. La transcription ne tarde pas à devenir à la fois très rapide et très précise — Dragon Dictate ne comprend pas le sens d’une phrase, mais c’est souvent tout comme.

Son orthographe laisse cependant à désirer : il laisse passer trop de fautes d’accord, n’est toujours pas capable de faire la différence entre ses et ces ou même sans et cent, et déteste les inversions syntaxiques. On peut facilement revenir sur un mot, et l’épeler au besoin, mais Dictate n’apprend toujours pas de ces corrections, contrairement à NaturallySpeaking. Il intègre heureusement un dictionnaire personnalisé, dans lequel on peut placer des néologismes, des noms propres ou des marques. Sans ce dictionnaire, la dictée d’un article de MacGeneration serait un véritable calvaire — « Mathematica » serait transcrit « mathématiques » et « iOS » ou « OS X » seraient mal capitalisés ou complètement compris de travers.

Et François Mitterrand utilisa Dragon Dictate

Et ce n’est pas le seul domaine dans lequel Dictate est en retard par rapport à NaturallySpeaking. Le contrôle de la position du curseur demeure par exemple un point de frustration extrême. Dans TextEdit, Word 2011 et Pages 4.3, il suffit de dire « Sélectionne “ou des noms de produits” » pour revenir instantanément à « ou des noms de produits » et ainsi corriger/remplacer le texte (« ou des marques ») ou lui appliquer une mise en forme (« en italique »). Dans toutes les autres applications, dont la nouvelle version de Pages, on voit le curseur se déplacer de caractère en caractère jusqu’à ce que le logiciel trouve le bon extrait… on a plus vite fait de saisir le clavier et la souris.

Pourtant, Dictate est censé permettre de s’en passer : il intègre des commandes permettant de piloter à la voix le Finder, Safari, Mail, Messages, Notes, Rappels, Calendrier et TextEdit. On peut en ajouter pour d’autres applications, voire les lier à des macros textuelles (« blabla » pour insérer une signature avec une formule de politesse), des processus Automator ou des scripts Shell ou AppleScript (« insère un lien Safari » pour convoquer un script insérant un lien complet vers la page en cours dans Safari). Nuance est allé jusqu’à développer une extension permettant de piloter Gmail dans Safari… mais elle a la fâcheuse tendance de faire planter le navigateur.

Parmi les commandes disponibles : « Ouvrir Mac Génération » \[sic]. Nous allons bien évidemment demander à l’éditeur de corriger la graphie et l’adresse.
Parmi les commandes disponibles : « Ouvrir Mac Génération » \[sic]. Nous allons bien évidemment demander à l’éditeur de corriger la graphie et l’adresse.

Dictate est cependant en avance sur NaturallySpeaking en ce qui concerne la transcription de fichiers audio, qui fait donc son grand retour. Si vous avez utilisé MacSpeech Scribe, vous retrouverez rapidement vos marques : Nuance l’a tout simplement intégré à Dictate, sans même modifier son fonctionnement (simple) ou ses capacités (très convaincantes). La transcription fonctionne de manière assez similaire à la reconnaissance : on commence par créer un profil spécifique, puis on fournit à Dictate le fichier audio (MP3, AIFF, WAV ou MP4) que l’on souhaite transcrire.

Le logiciel en transcrit les 60 premières secondes, puis vous demande de corriger les éventuelles erreurs. Il est ensuite capable de poursuivre le reste de la transcription : à condition que le fichier audio soit de bonne qualité, le résultat est excellent. Dans nos essais, Dictate a eu beaucoup de mal à se départir d’un fichier enregistré à l’aide d’un iPhone placé à 1,50 mètre de l'interlocuteur ; il s’en est beaucoup mieux sorti avec un podcast enregistré avec un micro Blue Snowball et un discours de François Mitterrand. Nuance recommande d’utiliser un dictaphone, de préférence un Philips Digital Voice Tracer.

La transcription d'un discours de François Mitterrand, de l'apprentissage à la version finale. En temps réel, l'opération prend un peu moins de cinq minutes, dont deux à corriger la première passe de Dictate.
La transcription d'un discours de François Mitterrand, de l'apprentissage à la version finale. En temps réel, l'opération prend un peu moins de cinq minutes, dont deux à corriger la première passe de Dictate.

La transcription pose cependant deux problèmes majeurs. D’abord, le profil est adapté à une seule voix : il est donc impossible de parfaitement transcrire les deux côtés d’une conversation, encore moins une conversation de groupe. Ensuite, Dictate n’essaye même pas de placer des rudiments de ponctuation selon l’intonation : le texte est fourni brut, sans la moindre virgule ni le moindre point. Cet outil fournit moins une transcription complète qu’une base à partir de laquelle travailler — mais bon sang que cette base est de bonne qualité !

C’est mieux, mais c’est encore mieux sur PC

Certes, OS X et iOS intègrent une fonction de reconnaissance vocale, d’ailleurs en partie fournie par Nuance. Mais Dragon Dictate est plus rapide que la dictée en ligne et plus précis que la dictée hors ligne. Il donne véritablement l’impression d’apprendre de votre voix, et permet de contrôler quasiment l’intégralité du Mac sans jamais toucher le clavier ni la souris. C’est une solution incontournable pour ceux qui souffrent de troubles musculosquelettiques ou de handicaps moteurs, d’autant plus incontournable qu’elle ne cesse de s’améliorer.

Le retour de la fonction de transcription est bienvenu, même s’il s'est fait attendre. Celle-ci est suffisamment rapide et précise pour intéresser les journalistes et les étudiants, auxquels elle fera gagner un temps précieux à défaut de faire le travail à leur place. C’est un avantage clair de Dragon Dictate sur son cousin Dragon NaturallySpeaking… mais c’est aussi le seul. Et c’est là que le bât blesse : encore aujourd’hui, Dictate n’en fait pas beaucoup plus et beaucoup mieux que NaturallySpeaking Home, qui coûte près de deux fois moins cher. NaturallySpeaking Premium coûte le même prix, mais fonctionne mieux dans un plus grand nombre d’applications.

On pensait cette époque terminée, mais Nuance n’a visiblement pas eu le mémo et continue de faire payer plus pour moins de fonctions, ce que d’aucuns qualifieraient de véritable « taxe Mac ». Dragon Dictate coûte 149 €, et c’est là son principal défaut — du moins tant qu’il ne sera pas tout à fait à la hauteur de ses équivalents PC.

8.5
10
Reconnaissance vocale sur Mac : test de Dragon Dictate 4

  • Reconnaissance rapide et précise

  • Transcription tout aussi rapide et précise

  • Contrôle presque total du Mac à la voix


  • Plus chère que la version PC avec quelques fonctions en plus… et beaucoup en moins


Les derniers dossiers

Ailleurs sur le Web


19 Commentaires Signaler un abus dans les commentaires

avatar iPeP mer, 16/07/2014 - 17:36 (edité)

J'avais acheté la version précédente... je ne m'y suis jamais fait. J'écris de nombreux textes et articles et j'en suis revenu au clavier. Je ne l'ai même pas réinstallé lors de ma dernière migration...

avatar ovea mer, 16/07/2014 - 18:22 via iGeneration pour iOS

On dira alors que "la taxe Mac" est très mal utilisée ! Car l'utilisateur au final n'est pas gagnant

Le problème de l'accès à un système multi-locuteur est pourtant assez mal reconnu par la petite communauté travaillant dans se domaine de la reconnaissance vocale.

Prenez un acteur, un doubleur, un imitateur qui travail ses personnages et payez le pour que la reconnaissance vocal fasse la différence …

je sais pas : en regardant sur Google la météo, ou s'il y a une épidémie de gripe, ou encore si vous avez un peu trop utilisé votre voix et qu'elle change subitement de timbre !!!

Grrr !!!

avatar noooty mer, 16/07/2014 - 18:30 via iGeneration pour iOS

@ovea :
Tu as écrit avec le clavier, ou tu as dicté? Par ceux queue Île y a plein de fautes... :)



avatar ET80 jeu, 17/07/2014 - 07:10 via iGeneration pour iOS

@ovea :
Je n'ai rien compris a ce que tu racontes ... Quel était le but de ton message?

avatar ovea jeu, 17/07/2014 - 12:49 via iGeneration pour iOS

@ET80 :
Il me semble que les spécialistes de la reconnaissance vocale ne travaillent pas avec les bonnes personnes pour mettre au point leurs logiciels. Et c'est pas juste un constat !

Ils feraient mieux de travailler avec des enfants handicapés qui on un besoin crucial de se type d'interface ne serait-ce que pour faire des études.

Du coup ça ferait nettement progresser le domaine bien loin de ce qui est dispo actuellement

avatar ET80 jeu, 17/07/2014 - 14:46 via iGeneration pour iOS

@ovea :
Merci de ton explication parce que ton premier message est pour moi incompréhensible.

Bonne journée :)

avatar Mac_Gay mer, 16/07/2014 - 19:09

"Les différentes possibilités sont donc comparées à un dictionnaire de 150 000 mots à l’échelle du mot, et à un corpus de concurrences à l’échelle de la phrase."

En linguistique un corpus de concurrences, ça n'existe pas. En revanche, un "un corpus de cooccurrences", oui! Voilà un bon exemple de fréquence de cooccurrence, justement ;-)

avatar Anthony Nelzin-... macG mer, 16/07/2014 - 21:00 via iGeneration pour iOS (edité)

@Mac_Gay : foutue autocorrection. Je corrige ça, merci !

avatar Zouba mer, 16/07/2014 - 19:45

Les concurrents disent à peu près la même chose sur l'amélioration de cette version, mais ils notent une baisse des perfs au bout de quelque temps. Vous aussi ?
http://goo.gl/L0eMaK

avatar Anthony Nelzin-... macG mer, 16/07/2014 - 21:08 (edité)

@Zouba : pas depuis que je l'utilise (et quand on a connu la v3 c'est rafraichissant). Mais en même temps, je ne comprends pas non plus les problèmes du test d'en face avec de multiples entrées (j'en gère quatre sans le moindre problème) et la mise en veille, ou l'étrange mention de l'obligation d'un micro USB (j'ai encore lancé cet après-midi un apprentissage avec des EarPods). Donc bon.

avatar Zouba jeu, 17/07/2014 - 11:31

Merci !

avatar Boumy mer, 16/07/2014 - 23:31 (edité)

Un effet collatéral de l'usage du logiciel est l'obligation d'organiser ses idées avant de dicter. Lorsqu'on tape au clavier, on ne prend pas toujours cette peine. En revanche, on est plus disert en dictant que lorsqu'on dicte. Cela peut rendre nos correspondants captifs de nos missives électroniques logorrhéiques. ;)

avatar François Mousni... jeu, 17/07/2014 - 11:17

Bonjour tout le monde.

Je suis très déçu par Dictate, que j'ai acheté dès sa sortie, il y a un mois. Je suis sur un iMac de 2012, sous Mavericks.
Je suis un vieil utilisateur de Dragon sur PC, je suis traducteur et j'ai souvent bossé avec pour traduire des textes longs. J'en étais très satisfait.
Mais Dictate est pour moi une catastrophe : j'ai des plantages permanents, avec envoi de mails automatiques à Nuance et à Apple, j'ai dû reconstituer des profils à au moins quatre reprises, espérant résoudre la question, mais sans résultat ; l'implémentation dans Safari me semblait en partie en cause, mais elle est très difficile à supprimer une fois installée ; il est par ailleurs assez difficile de dicter dans Word directement, ce que DNS faisait sur PC sans problème : il y a des erreurs fréquentes, des mots voisins supprimés quand on en remplace un, des erreurs de positionnement du curseur, et la qualité de la reconnaissance vocale est globalement très mauvaise, malgré la qualité correcte de mon équipement audio (du Logitech), qui tournait parfaitement sur PC et Dragon Naturally Speaking. Le logiciel n'enregistre pas toujours les apprentissages.Très vite, lorsque le logiciel ne plante pas immédiatement, les bons résultats se dégradent, malgré mes 12 Go de Ram.
Je suis vraiment dégoûté, je ne peux rien en faire.
Dictate me semble gravement bogué. Je serais content d'avoir des avis différents, ou des idées pour améliorer les choses. Chez Apple, à la FNAC, le vendeur m'a dit de faire une partition Windows et de repartir sous DNS, ce qu'il a fait lui-même... ;°)

avatar Zouba jeu, 17/07/2014 - 11:33

« Très vite, lorsque le logiciel ne plante pas immédiatement, les bons résultats se dégradent, malgré mes 12 Go de Ram. »
Ah, ça rejoint mon inquiétude évoquée plus haut :/

avatar legallou jeu, 17/07/2014 - 13:23

J'ai acheté en 2009, et j'ai un peu la même sensation que vous. En particulier, j'ai souvent le curseur qui saute à des endroits aléatoires dans le texte. Je suis en version trois, et pour mon usage, je n'ai pas l'impression d'amélioration véritablement notable. Cela devient un cercle vicieux, l'utilisant de moins en moins souvent je suis de moins en moins capable de l'utiliser correctement.

avatar ovea jeu, 17/07/2014 - 15:32 via iGeneration pour iOS

@ET80 :
Heu … disons que le locuteur sourit.
– Cela s'entend !
Qu'il fasse la gueule et c'est pareil !!
Imaginons maintenant une situation d'urgence … sans connaître un langage étranger, on comprendre encore !!!

Ceci pour dire qu'il y a des intentions nettement identifiables en dehors du "langage" objet de la reconnaissance, liées à la mécompréhension et qui ne sont absolument pas utilisées alors qu'elles pourraient être la base d'un système plus simple à utiliser.

avatar ovea jeu, 17/07/2014 - 16:08 via iGeneration pour iOS

@ET80 :
Tu m'arrête à la lettre :
A B C D E
"E" – ok !
A B C D E F G H I J K L M N
"N" – ok !
En ? – ok !

En quoi est-ce que le travail des acteurs sur la voix ne pourrait pas être utilisé afin d'aider à faire de la reconnaissance du langage un outil vraiment unique ? N'entendons nous pas des enfants ânonner des phrases avant même de savoir parler ?

Ne laisse-t-on pas notre oreille être plus attentive à un récit dont la voix est agréable ?

Et si justement ce genre de critère était utilisé comme déterminant on arriverait certainement plus vite à satisfaire notre problème de communication avec le logiciel qui réajusterait ses objectifs devant notre agacement.

avatar thg ven, 18/07/2014 - 11:08 (edité)

J'ai également abandonné Dictate dont la fiabilité et les performances laissent à désirer, il y a tellement de travail de relecture et de corrections après-coup qu'on ne gagne absolument pas de temps par rapport au clavier.

Autre inconvénient de ce type de logiciel : le fait de dicter et de contrôler le résultat en temps réel accapare la capacité de réflexion, alors qu'au clavier, on peut réfléchir à ce qu'on va écrire et à la structuration du texte.

avatar ccim12 dim, 20/07/2014 - 11:10

Bonjour , oui d'accord Dictate a des limites mais pour une personne comme moi qui fais de la traduction et qui a un handicap très fort à une main et ne peut taper qu'avec 5 doigts , c'est une app super en terme de gain de temps . la relecture existe oui et tant mieux . car on se rend parfois compte des âneries qu'on dicte !
pour la transcription audio j'ai des points , mais c'est tout . c'est déjà pas mal et oui on est etonné par la véracité du texte donné par l'app par rapport à celui qu'on entend , la façon de pouvoir le corriger peu à peu est super et fait gagner en intelligence du texte .
oui Dictate a des défauts , trouvez moi une app sans défauts …. mais pour ma part je ne pourrais plus m'en passer , j'espère que la version 4 sera compatible avec yosemite