Siri : le téléphone emprunte une nouvelle voix

Arnaud de la Grandière |
siri

Avec l'iPhone 4S, Apple vient de changer à nouveau le paradigme de son interface tactile d'une manière éclatante. En effet, pour la première fois dans l'histoire de l'informatique, un véritable mode de contrôle en langage totalement naturel vient d'être intégré de base dans un appareil grand public.

Il pourra être objecté qu'il existait déjà des modules de commande vocale précédemment, notamment dans Android, Windows ou Mac OS X, mais ce serait hors de propos : Siri ne propose pas un simple jeu de commandes vocales précises à effectuer pour communiquer avec l'appareil, mais offre une formulation libre (pas de « mots-clef » à prononcer), et mieux encore, instaure un véritable dialogue avec la machine par le biais d'une intelligence artificielle. En somme, Siri est à la commande vocale ce que l'interface graphique est à la ligne de commande : fini le vocabulaire à apprendre (autrefois les commandes textuelles), vous communiquez avec l'appareil de manière intuitive et simple.

NUI

De fait, la technologie Siri tient d'autant plus de la prouesse qu'elle résout un épineux problème qui freinait de longue date l'adoption des systèmes logiques d'interprétation. Le Newton avait beau proposer un système de reconnaissance de l'écriture cursive incroyablement avancé, les inévitables erreurs d'interprétation étaient immanquablement source de frustration pour l'utilisateur. Malgré tout, les quiproquos sont monnaie courante entre êtres humains, mais bénéficient de notre part d'une bien meilleure tolérance (lire : Pour quelques neurones de plus).

Nous avions évoqué cette question lors de notre interview du professeur Randall Davis du MIT (lire MIT : à la croisée de l'intelligence artificielle et des nouvelles interfaces), et voici l'explication qu'il donnait de cette problématique :

La raison pour laquelle les quiproquos entre personnes ne semblent pas aussi embêtantes, c'est que vous avez des conversations avec les gens. Imaginez si vous aviez un assistant et que la seule manière de communiquer avec lui soit de dire quelque chose, il ferait ce qu'il croit avoir compris que vous vouliez dire, mais se tromperait, et bien, il vous faudrait l'arrêter, tout recommencer, lui redire ce que vous vouliez, ce serait ridicule, ça n'est pas comme cela que nous fonctionnons avec les gens, et ça n'est pas comme cela que nous devrions fonctionner avec les machines. Donc, il y a du travail dans ce domaine, et on a une meilleure compréhension de la manière dont l'ordinateur peut être un partenaire facile à vivre dans la vie de tous les jours, ce qui rendra les malentendus plus faciles à tolérer.

Et à partir du moment où vous pouvez tolérer les malentendus, il devient bien plus facile de parler. La raison pour laquelle il est si difficile de travailler avec les ordinateurs, c'est qu'ils prennent absolument tout au pied de la lettre, et vous devez être exhaustif, complet et précis. Je n'ai pas envie d'être exhaustif, complet et précis, c'est trop embêtant. J'ai envie d'interagir de la façon dont j'interagis normalement avec un autre être humain. Je voudrais que la machine réponde comme une autre personne le ferait, ce qui pourrait être en disant "j'ai compris cette partie, mais pas celle-là".


Et c'est précisément le modèle que suit Siri : que votre demande soit incomplète ou équivoque, et Siri vous demandera des précisions pour s'assurer de l'intention derrière l'ordre. Ne nous y méprenons pas : il s'agit là de rien de moins que le Graal de l'interaction homme-machine. C'est précisément l'un des champs de recherche que le professeur Davis étudie au MIT en ce moment même, et voilà qu'Apple propose une solution clef-en-main dans un appareil de consommation de masse !

Pour bien comprendre les enjeux de Siri, il faut remonter à sa genèse : Apple a racheté la société Siri en avril 2010, après qu'elle a mis en vente son application sur l'App Store (lire : Assistant iOS 5 : « un événement qui change tout »). Mais celle-ci est née d'un projet financé par le DARPA, lui-même une émanation du Pentagone (à qui l'on doit rien de moins que le GPS, Internet, parmi bien d'autres).



Le projet CALO (pour "Cognitive Assistant that Learns and Organizes", assistant cognitif qui apprend et organise) a réuni pas moins de 300 experts du monde entier pendant cinq ans à partir de 2003, et fut piloté par un des plus puissants instituts de recherche privés de la Silicon Valley, le SRI (Standford Research Institute), où sont nés les premiers travaux sur l'interface graphique et la souris. Adam Cheyer, référence mondiale en matière d'interfaces homme-machine et d'intelligence artificielle, était la tête pensante de SRI, et depuis l'acquisition de Siri par Apple, il est devenu l'un des cadres dirigeants de l'ingénierie du groupe dédié à l'iPhone.

La « vallée dérangeante »
Un phénomène étrange a été observé dans le domaine des images de synthèse et de la robotique : à mesure qu'on approche d'un certain réalisme de la représentation humaine, les images suscitent une réaction de rejet de la part des spectateurs, parce que l'être que nous voyons semble incroyablement humain, mais quelque chose d'indicible, dans son apparence ou dans sa façon de se mouvoir, donne l'impression d'un « cadavre en mouvement » (lire L'image de synthèse, d'hier à demain). Cette « vallée dérangeante » connaît également un corollaire lorsque nous sommes confrontés à une interaction vocale avec la machine. Vous en avez tous fait l'expérience : qui n'a pas été exaspéré par ces boîtes vocales interactives, qui au lieu de vous demander de presser une touche sur le clavier téléphonique, vous demandent de prononcer des mots-clefs ? Le système se voulait plus naturel, mais n'a fait que souligner son inhumanité : on se sent profondément stupide à devoir bêtement répéter à voix haute des mots-clefs à une machine qui de toute évidence n'en comprend pas le sens.

Il faut espérer que cette exaspération n'aura pas cours avec Siri, mais le système a toutes les chances pour lui : d'abord parce qu'il ne contraint pas l'humain à un vocabulaire limité et précis de mots-clefs. Ainsi, vous lui donnez des ordres librement, sans avoir à réfléchir à la formulation, aussi spontanément que vous le feriez avec un être humain. Ensuite, parce qu'il apporte un véritable dialogue, vous demandant des compléments ou des précisions le cas échéant. D'autre part, pour peu que sa compréhension soit efficace, et elle semble redoutable, nous n'aurons plus ce sentiment de vacuité qui vient en s'adressant à une « bête machine ».



Mais c'est surtout les avantages indéniables qu'apporte Siri qui nous motiveront à passer outre ce sentiment initial. « Réveille-moi dans 20 minutes » est un ordre sans commune mesure avec la manière dont nous avons eu jusqu'ici à régler un réveil sur l'iPhone. C'est beaucoup plus rapide et efficace, et c'est comme cela que nous sommes habitués à communiquer. Siri offre la voie de la moindre résistance, c'est donc tout naturellement qu'elle gagnera notre préférence.

L'ouverture d'une nouvelle voie
Pour aussi impressionnante qu'elle soit, la technologie Siri n'en est qu'à ses tout débuts. De nouvelles catégories d'ordres feront leur apparition au fur et à mesure, et on imagine sans mal qu'Apple ouvrira son accès aux applications de tierce partie. Mieux encore, si Siri est déjà en mesure de taper le courrier que vous lui dictez, elle ressemblera de plus en plus à une secrétaire particulière : ses capacités d'interaction avec l'être humain la vouent à interagir avec d'autres personnes en votre nom.

Le Knowledge Navigator, un concept d'Apple (et cheval de bataille de John Sculley) en 1987. Date de réalisation prévue ? Septembre 2011. À un mois près, Siri y arrive… presque.


Comme elle est déjà dans votre téléphone, elle pourra prendre vos messages et filtrer vos appels en fonction de votre disponibilité et de l'importance de ceux-ci, ou s'occuper en votre nom de vos réservations à voix haute auprès d'un autre être humain. Il faudra encore quelque temps pour que Siri donne sa pleine mesure, mais on le devine sans mal : Apple tient ici un vaste champ de prospection qui faisait figure de science-fiction il y a encore peu de temps.
Tags
avatar Terence993 | 
Apple est en train de redéfinir le marche rien qu' avec cette fonction. Je vais être encore plus impressionné que quand j' ai mis les mains sur mon Newton pour la première fois.
avatar JYF | 
Excellent article, qui montre bien les enjeux énormes. Après la souris, le tactile, etc., Apple révolutionne encore la donne pour le grand public. Il aura fallu que Jobs meure pour que cet événement informatique d'importance soit relativement occulté.
avatar Rototo104 | 
Merci beaucoup pour cet article extrêmement intéressant ! Je crois que SIRI est une merveille, Apple a quoi qu on puisse dire un temps d'avance sur la concurrence. Déçu parce qu il n y a pas d iPhone 5 avec un nouveau design ? On s'en br.... Ya SIRI ! Les autres ont le design, l iPhone a SIRI (et le design, l'iPhone 4 est très beau je trouve, ayant un 3GS je suis très heureux du 4S)
avatar liocec | 
Excellent article, très clair et précis.
avatar Fil de Brume | 
Moi j'attends vraiment de voir l'ouverture à des applications tierce partie. Par exemple pour pouvoir faire ce genre de choses en voiture : ouvre macgeneration, lis moi les titres, ouvre le premier article, lis moi le premier article, lis moi les commentaires, ecris un commentaire... Tout ça quoi ;). Déjà hier en voiture j'ai utilisé une appli de synthèse vocale pour me lire un article de jeux vidéos pendant que je conduisais, c'est bien pratique... Faire tout ça en commandes vocales serait le top. Le top serait aussi qu'une manipulation d'une oreillette bluetooth permette de lancer siri. Verra t'on l'émergence d'un label de périphériques "compatible siri" ?
avatar Mister_sam32 | 
Très bon article ! Détails clair et précis ! Je m'était dit qu'Apple avait vraiment gaffer de ne pas avoir sorti d'iPhone 5, Mais en faite, je me suis tromper !?! J'ai trop suivis ces rumeurs, qui m'on donner de faux espoirs ! Apple a révolutionner l'iPhone 4 ! Bravo a l'équipe Mac G pour cet article !
avatar YARK | 
Merci pour l'article. Je ne connaissais pas le terme "vallée dérangeante", mais c'est exactement ce que j'ai pensé quand j'ai vu ça : http://www.lesnumeriques.com/demonstration-exosquelette-hal-tokyo-cyberdyne-news-21487.html Un mélange d'émerveillement et une sorte de répulsion. Bizarre comme sensation, est-ce le fait que ce soit réel qui dégage un sentiment différent de la vision d'effets sortis d'un film à la Terminator ?
avatar dedotaku | 
Ça sera dispo iPad 2 avec iOS 5 ?
avatar dedotaku | 
Opus sur ipad 2 ?
avatar Setankin | 
La "valée dérangeante" en ce qui me concerne pour l'intégration de Siri se situe au niveau de la voix en elle-même. Pourquoi les ingénieurs d'Apple ont choisi d'utiliser une voix si robotique alors que de grands progrès ont été réalisés ces dernières années. Même les voix intégrées à Mac OS X semblent plus naturelles que celle de Siri.
avatar Louis XVI | 
Très bon article, Siri est époustouflant (de promesse) !
avatar Felixsanti | 
Superbe article! Merci MacG!
avatar Felixsanti | 
Superbe article! Merci MacG!
avatar tibet | 
On n'oublie pas en même temps que Siri est frappé de l'épithète "Béta" ... il y a encore du boulot y compris pour l'intégration de voix plus naturelle. Ce qui 'n'est peut-être pas la priorité actuelle. Je suis impatient de voir/entendre ça !
avatar kraklesak | 
et Siri dans une iTV, ça pourrait donner ça : http://goopple.fr/2011/apple/itv-apple/
avatar hairquatercut | 
Si je l'engueule, que se passe-t-il ? il m'insulte ou se met-il volontairement en panne ? :-))
avatar Jeckill13 | 
Il est intéressant de voir comment Apple utilise les technologies. Apple n'a pas inventé l'écran tactile et le smartphone, ils l'ont seulement rendu l'interface utilisable par tous et évident d'utilisation, pareil pour l'ipad le pc tablette était déjà là, Apple l'a juste rendu agréable d'utilisation et performant, pareil pour le magasin d'application ( ou ça d'appele comme ça puisque AppStore est une marque déposée, prend ça dans les dents Microsoft) et maintenant le contrôle vocale ! Apple ou comment revisiter notre façon d'utiliser la technologie.
avatar Joe Guillian | 
Avant la sortie du nouvel iPhone je me demandais ce qu'apporterait Apple de plus vis à vis de la concurrence. Fondamentalement au delà d'un attrait esthétique et d'un confort visuel, un nouvel écran, un nouveau form factor, etc tant attendus n’aurait pas apporté grand-chose si ce n'est d'être un peu plus « à jour » face à la concurrence. Ma question était plutôt, après la première version (V1) de l’iPhone, qui pour moi était une révolution dans le monde de la téléphonie (écran tactile vraiment tactile-réactif, interface homme-machine très fluide, etc. qui donnait presque une impression de magie au 1ère usage) que pouvait apporter aujourd’hui Apple alors que la concurrence fait aussi bien voire mieux parfois ? (si si..) Avec SIRI, c'est clairement une nouvelle dimension qu'explore Apple au travers d’un smartphone, je ne sais pas si cette techno. marchera/suivra dans le temps, si la mayonnaise prendra auprès des utilisateurs, mais il faut avouer que c’est vraiment prometteur! C’est en tout cas ce type de nouveauté que j’attendais pour me dire qu’Apple se distingue une nouvelle fois par l’innovation et un parie (gonflé ?) sur l’avenir.
avatar Rototo104 | 
@kraklesak awesome ton lien ! J achete ! :P
avatar asseb | 
@ Fil de brume C'est possible avec certaines oreillettes, perso j'ai une nokia, un appui long sur le bouton lance la reconnaissance vocale, ca lancera donc aussi Siri !
avatar ce78 | 
Passionnant merci ! J'ai hâte de voir ça vendredi 14 !!!!!
avatar Hi me | 
C'est du vrai ou pas le knowledge navigator
avatar Dodi12 | 
Il y a peut-être aussi une relation à faire entre siri et l'énorme data-center d'Apple car je ne pense pas qu'Apple ait investi autant d'argent juste pour iCloud. J'espère que siri se developpera rapidement, je suis très pressé de retrouver cette fonction sur mon Mac, ça sera sans doute le premier ordinateur sans clavier.
avatar machoire | 
Dommage pour l'iphone 4....:(
avatar ckfd | 
Siri sur LIon ? c'est possible? Quelqu'un sait? je le verrais bien sur mon macbook air en nomade. je trouverais plus naturel d'ailleurs d'interagir avec mon laptop mais ce n'est surement qu'une perception.

Pages

CONNEXION UTILISATEUR