Siri : le téléphone emprunte une nouvelle voix

Arnaud de la Grandière |
siri

Avec l'iPhone 4S, Apple vient de changer à nouveau le paradigme de son interface tactile d'une manière éclatante. En effet, pour la première fois dans l'histoire de l'informatique, un véritable mode de contrôle en langage totalement naturel vient d'être intégré de base dans un appareil grand public.

Il pourra être objecté qu'il existait déjà des modules de commande vocale précédemment, notamment dans Android, Windows ou Mac OS X, mais ce serait hors de propos : Siri ne propose pas un simple jeu de commandes vocales précises à effectuer pour communiquer avec l'appareil, mais offre une formulation libre (pas de « mots-clef » à prononcer), et mieux encore, instaure un véritable dialogue avec la machine par le biais d'une intelligence artificielle. En somme, Siri est à la commande vocale ce que l'interface graphique est à la ligne de commande : fini le vocabulaire à apprendre (autrefois les commandes textuelles), vous communiquez avec l'appareil de manière intuitive et simple.

NUI

De fait, la technologie Siri tient d'autant plus de la prouesse qu'elle résout un épineux problème qui freinait de longue date l'adoption des systèmes logiques d'interprétation. Le Newton avait beau proposer un système de reconnaissance de l'écriture cursive incroyablement avancé, les inévitables erreurs d'interprétation étaient immanquablement source de frustration pour l'utilisateur. Malgré tout, les quiproquos sont monnaie courante entre êtres humains, mais bénéficient de notre part d'une bien meilleure tolérance (lire : Pour quelques neurones de plus).

Nous avions évoqué cette question lors de notre interview du professeur Randall Davis du MIT (lire MIT : à la croisée de l'intelligence artificielle et des nouvelles interfaces), et voici l'explication qu'il donnait de cette problématique :

La raison pour laquelle les quiproquos entre personnes ne semblent pas aussi embêtantes, c'est que vous avez des conversations avec les gens. Imaginez si vous aviez un assistant et que la seule manière de communiquer avec lui soit de dire quelque chose, il ferait ce qu'il croit avoir compris que vous vouliez dire, mais se tromperait, et bien, il vous faudrait l'arrêter, tout recommencer, lui redire ce que vous vouliez, ce serait ridicule, ça n'est pas comme cela que nous fonctionnons avec les gens, et ça n'est pas comme cela que nous devrions fonctionner avec les machines. Donc, il y a du travail dans ce domaine, et on a une meilleure compréhension de la manière dont l'ordinateur peut être un partenaire facile à vivre dans la vie de tous les jours, ce qui rendra les malentendus plus faciles à tolérer.

Et à partir du moment où vous pouvez tolérer les malentendus, il devient bien plus facile de parler. La raison pour laquelle il est si difficile de travailler avec les ordinateurs, c'est qu'ils prennent absolument tout au pied de la lettre, et vous devez être exhaustif, complet et précis. Je n'ai pas envie d'être exhaustif, complet et précis, c'est trop embêtant. J'ai envie d'interagir de la façon dont j'interagis normalement avec un autre être humain. Je voudrais que la machine réponde comme une autre personne le ferait, ce qui pourrait être en disant "j'ai compris cette partie, mais pas celle-là".


Et c'est précisément le modèle que suit Siri : que votre demande soit incomplète ou équivoque, et Siri vous demandera des précisions pour s'assurer de l'intention derrière l'ordre. Ne nous y méprenons pas : il s'agit là de rien de moins que le Graal de l'interaction homme-machine. C'est précisément l'un des champs de recherche que le professeur Davis étudie au MIT en ce moment même, et voilà qu'Apple propose une solution clef-en-main dans un appareil de consommation de masse !

Pour bien comprendre les enjeux de Siri, il faut remonter à sa genèse : Apple a racheté la société Siri en avril 2010, après qu'elle a mis en vente son application sur l'App Store (lire : Assistant iOS 5 : « un événement qui change tout »). Mais celle-ci est née d'un projet financé par le DARPA, lui-même une émanation du Pentagone (à qui l'on doit rien de moins que le GPS, Internet, parmi bien d'autres).



Le projet CALO (pour "Cognitive Assistant that Learns and Organizes", assistant cognitif qui apprend et organise) a réuni pas moins de 300 experts du monde entier pendant cinq ans à partir de 2003, et fut piloté par un des plus puissants instituts de recherche privés de la Silicon Valley, le SRI (Standford Research Institute), où sont nés les premiers travaux sur l'interface graphique et la souris. Adam Cheyer, référence mondiale en matière d'interfaces homme-machine et d'intelligence artificielle, était la tête pensante de SRI, et depuis l'acquisition de Siri par Apple, il est devenu l'un des cadres dirigeants de l'ingénierie du groupe dédié à l'iPhone.

La « vallée dérangeante »
Un phénomène étrange a été observé dans le domaine des images de synthèse et de la robotique : à mesure qu'on approche d'un certain réalisme de la représentation humaine, les images suscitent une réaction de rejet de la part des spectateurs, parce que l'être que nous voyons semble incroyablement humain, mais quelque chose d'indicible, dans son apparence ou dans sa façon de se mouvoir, donne l'impression d'un « cadavre en mouvement » (lire L'image de synthèse, d'hier à demain). Cette « vallée dérangeante » connaît également un corollaire lorsque nous sommes confrontés à une interaction vocale avec la machine. Vous en avez tous fait l'expérience : qui n'a pas été exaspéré par ces boîtes vocales interactives, qui au lieu de vous demander de presser une touche sur le clavier téléphonique, vous demandent de prononcer des mots-clefs ? Le système se voulait plus naturel, mais n'a fait que souligner son inhumanité : on se sent profondément stupide à devoir bêtement répéter à voix haute des mots-clefs à une machine qui de toute évidence n'en comprend pas le sens.

Il faut espérer que cette exaspération n'aura pas cours avec Siri, mais le système a toutes les chances pour lui : d'abord parce qu'il ne contraint pas l'humain à un vocabulaire limité et précis de mots-clefs. Ainsi, vous lui donnez des ordres librement, sans avoir à réfléchir à la formulation, aussi spontanément que vous le feriez avec un être humain. Ensuite, parce qu'il apporte un véritable dialogue, vous demandant des compléments ou des précisions le cas échéant. D'autre part, pour peu que sa compréhension soit efficace, et elle semble redoutable, nous n'aurons plus ce sentiment de vacuité qui vient en s'adressant à une « bête machine ».



Mais c'est surtout les avantages indéniables qu'apporte Siri qui nous motiveront à passer outre ce sentiment initial. « Réveille-moi dans 20 minutes » est un ordre sans commune mesure avec la manière dont nous avons eu jusqu'ici à régler un réveil sur l'iPhone. C'est beaucoup plus rapide et efficace, et c'est comme cela que nous sommes habitués à communiquer. Siri offre la voie de la moindre résistance, c'est donc tout naturellement qu'elle gagnera notre préférence.

L'ouverture d'une nouvelle voie
Pour aussi impressionnante qu'elle soit, la technologie Siri n'en est qu'à ses tout débuts. De nouvelles catégories d'ordres feront leur apparition au fur et à mesure, et on imagine sans mal qu'Apple ouvrira son accès aux applications de tierce partie. Mieux encore, si Siri est déjà en mesure de taper le courrier que vous lui dictez, elle ressemblera de plus en plus à une secrétaire particulière : ses capacités d'interaction avec l'être humain la vouent à interagir avec d'autres personnes en votre nom.

Le Knowledge Navigator, un concept d'Apple (et cheval de bataille de John Sculley) en 1987. Date de réalisation prévue ? Septembre 2011. À un mois près, Siri y arrive… presque.


Comme elle est déjà dans votre téléphone, elle pourra prendre vos messages et filtrer vos appels en fonction de votre disponibilité et de l'importance de ceux-ci, ou s'occuper en votre nom de vos réservations à voix haute auprès d'un autre être humain. Il faudra encore quelque temps pour que Siri donne sa pleine mesure, mais on le devine sans mal : Apple tient ici un vaste champ de prospection qui faisait figure de science-fiction il y a encore peu de temps.
Tags
avatar Anonyme (non vérifié) | 
Bonjour, A mon avis Siri annonce la future interface avec la TV par APPLE. Imaginez une télé avec qui vous parlez pour demander le programme de ce soir, pour changer de chaine, pour louer un film avec tel ou tel acteur, lire vos mail, en envoyer, etc etc.
avatar juss | 
Siri une nouveauté impressionnante??? LOL!!! un peu comme la sonnerie personnalisée des sms lors de la dernière maj... Bref de la poudre aux yeux afin de cacher le manque d'innovation d'Apple. Siri = feature pompé sur le SGS 2, Avec son voice talk gérer par vlingo L'app pour trouver ces potes = latitude like Notification = Android Intégration de réseaux sociaux = windows phone Bref le manque d'innovation d'Apple est flagrant, pas foutu de sortir une nouveauté exclusive depuis des années!
avatar Mithrandir | 
@juss : pour avoir testé Vlingo, ce truc ne marche pas du tout. Desinstallé aussi sec. Quand aux voice actions d'Android, ça ne comprend que les commandes faites dans la syntaxe rigide qu'ils ont définie. (ce qui est visible même dans leur vidéo sur YouTube). Si Siri marche à peu près comme montré, c'est effectivement à un tout autre niveau par rapport à la concurrence.
avatar Zouba | 
@ juss : merci pour l'éclat de rire :-) Vos remarques sont du même acabit que celles qu'on entend à chaque sortie d'un produit d'Apple (bouh l'iPhone pas de 3G, pas de MMS, marchera jamais…). Elles n'ont pour seul fondement que de supposer que les clients d'Apple sont des cons qui pensent que cette société a tout inventé. Une explication un peu courte si vous m'autorisez à donner mon avis !
avatar XiliX | 
@juss Arrêtes, j'ai mal au ventre... j'ai des crampes :D :D :D http://www.lesnumeriques.com/vlingo-commande-vocale-gratuite-smartphones-android-news-21445.html
avatar pinsuttu | 
Juss demande à Vlingo s'il peut te trouver un cerveau, parce que t'en à sérieusement besoin si tu captes pas la différence entre cette merde de Vlingo et Siri.
avatar shenmue | 
@Juss: Au lieu de sortir tes conneries habituelles de rageux habituel (tu vas finir par te faire un trou à l'estomac si ça continue), va donc sur ce lien: http://www.macrumors.com/2011/10/11/hands-on-iphone-4s-video-or-what-happens-if-you-tell-siri-i-love-you/ C'est bien simple, ça bute, pas de mots clefs à utiliser, des phrases et un DEBIT naturel (voire même rapide comme dans la seconde vidéo) et il ne se trompe pour ainsi dire jamais (ou presque). C'est LA killer-app, le truc qui fait passer vilingo pour un truc d'il ya 5 ou 10 ans face à cela (et qui du même coup fait passer le mobile qui utilise Vilingo comme un truc d'il y a 10 ans aussi...) Ces vidéos sont en train de tourner sur le net et selon les retours aux US, pour la première fois, il n'y aurait pas de baisse de réservations passé les premières 24 heures, ce qui est pourtant la logique. Je pense que siri est l'explication de cet engouement, car c'est clairement un game-changer là. Je plains la concurrence qui va à nouveau, Samsung compris, se prendre une grosse tôle sur le trimestre des fêtes...
avatar shenmue | 
http://www.youtube.com/watch?feature=player_embedded&v=5mNcnj2l6RE C'est vraiment bluffant, le débit est rapide et pourtant Siri ne se trompe jamais. Il y a encore quelques manques (il lit les SMS mais pas les mails), mais Apple a bien prévenu qu'il updaterait son cerveau régulièrement et franchement, on a là, enfin, de la réco qui va réellement faciliter la vie au quotidien.
avatar Le Macros | 
Est-ce que mon iPad 2 prendra Siri en charge?
avatar XiliX | 
@shenmue Le test de Stuff.TV est simplement bluffant...
avatar rom54 | 
@shenmue Siri est un concept impressionnant et Apple a pris le reste de l'industrie de vitesse dans la meme dimension que l'introduction de Macintosh en 1984, c'est indéniable! Neanmoins il faut rester prudent. Il faut attendre de voir les retours des utilisateurs pour ce qui est des performances et de la fonctionnalité. Ensuite, il faut bien prendre en compte que l'avance technologique d'Apple en 1984 ne lui a rapporte la reconnaissance et le succès mérites que depuis 2005, apres que tous les autres constructeurs aient copié, plus ou moins bien, ses éléments d'interface (ils n'ont d'ailleurs jamais réussi a les intégrer au meme niveau et ni avec la meme efficacité). Aujourd'hui tous les ordinateurs ressemblent a des Macintosh. Et les téléphones mobiles tendent a devenir des clones de l'iPhone. Il ne faut pas oublier que si Microsoft est totalement hors jeu, ce coup ci, il y a face a Apple un Google qui a les moyens de faire tourner la photocopieuse efficacement et qui l'a mainte fois démontré avec Android. Ceci dit, comme je l'ai écrit precedement ici, l'interaction vocale (qui se situe a des années lumières de la reconnaissance vocale que certains tentent de comparer avec Siri) est la troiseme révolution de l'interaction homme machine et la prochaine a émerger. Apple a une grande avance dans son utilisation vers le grand public, et, si elle tient ses promesses, l'ere Jobs aura connue une évolution qualitative de l'informatique qu'il va être difficile de dépasser...
avatar pillouti | 
Je prédis une intégration future de siri dans tous les terminaux apple mais surtout une complète interaction "on the cloud" entre eux. Genre depuis l'iphone : "siri, éteins l'ordi ou lances itunes et joue tel morceau, lance tel téléchargement..."
avatar XiliX | 
@shenmue Ok... je viens de regarder le test de MacWorld... dois-je dire que je suis impressionné ??? mais je suis de plus en plus impressionné...
avatar bambougroove | 
Je vois qu'il y en a qui n'ont toujours pas compris la différence entre "invention", "révolution" et "innovation" ... Même si Apple n'a pas inventé toutes les technologies utilisées, elle en a révolutionné l'usage et en a donc fait quelque chose d'innovant ... et c'est ce qui va se passer avec Siri et ce n'est qu'un début ! Comme déjà dit page 6, rien que pour Siri l'iPhone 4S n'est pas la déception dont parlent beaucoup, et les vidéos qui traînent sur le net sont éloquentes, j'ai hâte de le recevoir pour tester !! Un exemple en français (sous réserve d'un fake, tellement l'intonation de la voix dans les phrases de Siri est subtile) : http://www.youtube.com/watch?v=GydLlvStiNc PS : le journal en question n'est pas du tout mon journal favori, c'est tombé comme cela ;) Et pour l'humour, une parodie : http://www.youtube.com/watch?v=_GEVWIYiaEg (j'aime bien l'inversion des couleurs du logo Apple avec Steve Jobs réalisé à l'origine par Jonathan Mak Long)
avatar Anonyme (non vérifié) | 
Bonsoir à tous, Est ce que c'est possible d'avoir ceci sur un iphone 4 tout simple j'ai perdu le S en cours de route lol

Pages

CONNEXION UTILISATEUR