MIT : à la croisée de l'intelligence artificielle et des nouvelles interfaces

Arnaud de la Grandière

dimanche 20 mars 2011 à 11:32 • 30

Le Professeur Randall Davis enseigne au laboratoire CSAIL du MIT depuis 1978. En 2006, soit un an avant les premiers pas de l'iPhone, une vidéo faisant la démonstration des résultats de la thèse d'une de ses élèves, Christine Alvarado, connaît un succès phénoménal sur YouTube. La vidéo remonte en réalité à 2002. Nous avons eu l'occasion d'interviewer le Professeur Davis lors de notre visite au MIT.

Consultée plus d'un million et demi de fois, la démonstration du projet nommé Assist, si elle n'est techniquement pas révolutionnaire, impressionne malgré tout par la combinaison ingénieuse de technologies existantes pour réduire l'interface utilisateur à sa portion congrue : un simple bouton affiché sur un tableau blanc, qu'on active de la pointe du crayon, et subitement votre dessin prend vie. Cette approche préfigurait de la manière dont l'informatique tend à disparaître pour se fondre dans notre environnement, à l'image de ce que l'iPad ou le Kinect de Microsoft proposent. C'est dans le bâtiment William H. Gates du Stata Center que se situe le CSAIL (Computer Science and Artificial Intelligence Laboratory) où travaille le Professeur Davis, et c'est là que nous l'avons rencontré pour un entretien passionnant.

Ce qui est assez notable au sujet d'Assist, c'est que les technologies que vous avez utilisées était déjà disponibles depuis quelque temps (reconnaissance de formes vectorielles dans le jeu Myth en 1997, les tableaux numériques et les simulations à base de modèles physiques existaient depuis un moment), mais vous avez combiné ces technologies en y ajoutant l'interprétation des dessins, ce qui était en revanche une nouveauté. Suivez-vous une procédure particulière pour trouver des idées afin de combiner des technologies existantes d'une nouvelle manière ? Comment avez-vous trouvé cette idée ?

Tout d'abord, il est tout à fait juste que plusieurs aspects d'Assist utilisaient des technologies déjà disponibles sur le marché. Le simulateur par exemple était un programme de Microsoft appelé Working Model, que nous avons tout simplement acheté, en partie parce que les simulations newtoniennes, la mécanique et la dynamique ordinaire sont un problème globalement résolu, et que nous n'avions pas de raison d'écrire une nouvelle simulation newtonienne.

En revanche, Assist n'était pas qu'une simple combinaison de technologies existantes, dans la mesure où l'interprétation de croquis n'avait jamais été faite avant. Pour donner un exemple simple, dans la démonstration lorsque vous dessinez la rampe, puis une voiture, puis vous dessinez les roues, et un cercle plus petit à l'intérieur de chaque roue, c'est un essieu qui connecte le corps de la voiture aux roues. Ce sont tous deux des cercles, pourquoi l'un est interprété comme une roue et l'autre comme un essieu ? Et c'est ce sur quoi la thèse de Christine portait, être capable de comprendre ce que le diagramme essayait de décrire.

Donc, cela comporte un nombre de problèmes intéressants et difficiles que nous avons dû résoudre, pour rendre toute la partie d'interprétation de croquis possible. La connexion avec un interpréteur sur un terminal était une autre partie de l'architecture qui était intéressante. Les choses que nous avons connectées sur le terminal étaient des programmes existants.

L'idée que vous pouviez avoir une interface d'interprétation de croquis qui se connecte aux applications sur le terminal était une chose nouvelle, donc nous avons fait une démonstration simple du dessin de diagrammes, que nous avons transmis aux lignes rationnelles, qui généraient des déclarations de classe basiques, basées sur l'idée que vous pourriez dessiner l'architecture d'un programme, et que le code pourrait sortir de l'autre côté. Et ce que j'aimerais dire à ce sujet, c'est que c'est ce que devrait être la programmation visuelle. La possibilité de dessiner un diagramme, et d'avoir automatiquement du code au bout.

L'autre élément utile qu'apportait Working Model c'était de nous fournir l'animation et non seulement la simulation, donc c'est la partie merveilleusement amusante d'Assist. Pour moi, il est assez fascinant de voir à quel point le fait de dessiner quelque chose et de le voir prendre vie est merveilleusement amusant, et en fait c'est une chose à laquelle je réfléchis depuis longtemps.

À l'origine, c'était il y a très longtemps, dans les premières années de la télévision, Walt Disney avait une émission de télé, et l'une des choses qu'ils y ont montrées une fois, c'était un genre de minidocumentaire sur la façon dont l'animation fonctionne.

C'était probablement au début des années 60 je suppose, et il y avait une interview avec un animateur, et l'animateur montrait comment cela marchait : il dessine Donald Duck sur une page, tourne la page et dessine Donald dans une position légèrement différente, tourne la page, et le dessine un certain nombre de fois, et puis bien sûr il effeuille les pages et vous obtenez un peu comme une animation de flip-book, et il explique les bases de l'animation.

Et à la fin, rien que pour le plaisir, l'animateur dessine une fois de plus Donald Duck, et Donald commence à marcher à travers la page comme par magie. J'étais un enfant à l'époque, et ça m'a terriblement frustré pour deux raisons : la première était que j'étais incapable de dessiner Donald Duck, et la seconde était que lorsque je le dessinais sur le papier, il ne se mettait pas à marcher. Et j'ai depuis toujours voulu un papier qui soit assez intelligent pour comprendre ce que j'y dessinais.

Et c'est comme ça que c'est devenu le but de votre vie ?

C'est devenu l'un des buts de ma vie, oui, de faire en sorte que cela se produise. Et quand il m'est clairement apparu que c'était un domaine très riche, c'est devenu fascinant pour moi, de dessiner quelque chose comme cela et de le voir prendre vie sur la page, et de fait, l'un des titres originaux du projet c'était Magic Paper.

Quelle a été votre réaction lorsque vous avez appris l'enthousiasme que suscitait votre démonstration sur YouTube ?

« Pourquoi n'y ai-je pas pensé ? », je veux dire, à le mettre sur YouTube, parce que ça n'est pas nous qui l'y avons mis, et je dois avouer que je n'ai aucune idée de qui l'a fait, mais qui que ce soit je suis content qu'il l'ait fait. Je n'ai pas regardé depuis un moment, mais la dernière fois, il y avait plus d'un million de visionnages, ce qui est très intéressant et gratifiant à voir.

Est-ce quelque chose que vous allez faire pour vos recherches à l'avenir, mettre en ligne vos résultats pour les faire savoir au monde ?

Je n'ai pas d'avis tranché sur la question, d'un côté c'est clairement une bonne idée, mais de l'autre, qu'est-ce que ça prend comme temps pour le faire correctement ! Créer des vidéos pour ce type de consommation est en fait une tâche difficile, donc je suis partagé.

Avez-vous entendu parler de Crayon Physics ? Quel a été votre réaction en voyant cela ?

Je pense que c'est une bonne idée. Cela capture le même genre de chose, dans l'idée de « est-ce que ça ne serait pas merveilleux si vous pouviez dessiner et que ça soit compris et que ça prenne vie ? » Donc, c'est un autre exemple de cet état de fascination qui se produit et dont je ne comprends toujours pas les rouages.

Il y a eu plusieurs exemples de ce type qui ont suivi dans l'esprit de la reconnaissance de dessin, et qui en ont fait des versions simplifiées, en partie pour que l'application soit suffisamment légère pour la faire fonctionner dans une page web. Il y a par exemple $1 regognizer qui a plus de cinq ans, mais c'est de la reconnaissance de forme qui a eu pas mal de presse pendant un moment. Il fonctionnait raisonnablement bien, mais ne permettait que la reconnaissance d'un symbole fait en un seul trait, donc vous ne pouviez pas faire de dessin à plusieurs traits.

Donc il y a différentes choses qui suivent l'esprit de ce dont nous parlions, mais par certains égards c'est de moindre envergure, en partie parce que, une fois que vous voulez faire de la reconnaissance sur plusieurs traits, il faut gérer les traits brouillons, le repassage, toutes les choses que les gens font lorsqu'ils dessinent, alors cela devient beaucoup plus difficile, c'est une des choses qui va comme cela [il dessine dans l'air une courbe exponentielle], si vous êtes en bas, le trait simple et propre, ou peut-être les traits multiples propres, cela devient un petit peu plus difficile, mais quand vous commencez à faire face à la manière dont les gens dessinent ordinairement, c'est beaucoup plus difficile.

Pour vous donner un exemple : une des choses que les gens font, c'est de commencer à dessiner, puis ils dessinent autre chose, et ensuite ils reviennent au dessin initial pour y ajouter quelque chose. Et tout d'un coup cela devient beaucoup plus difficile à interpréter que si vous forcez les gens à ne dessiner qu'un seul symbole à la fois.

Et c'est quelque chose qui va être un problème de plus en plus important avec les logiciels d'interprétation, en cela que, lorsque l'on communique avec d'autres personnes, il y a des quiproquos et des incompréhensions en permanence, mais nous le tolérons, alors que ce n'est plus le cas lorsque cela arrive avec une machine. Cela suscite de la frustration.

Je pense que c'est parce que la recherche ne s'est pas encore assez focalisée sur la manière d'avoir une interaction avec une machine qui semble naturelle. La chose la plus proche dont j'aie connaissance c'est certains travaux dans la reconnaissance vocale, où ils ont porté beaucoup d'attention à faire en sorte qu'un dialogue semble naturel. Et j'insiste sur la notion de dialogue, ça n'est pas « je dis quelque chose et la machine fait ce qu'elle est censée faire », mais nous avons une conversation.

La raison pour laquelle les quiproquos entre personnes ne semblent pas aussi embêtantes, c'est que vous avez des conversations avec les gens. Imaginez si vous aviez un assistant et que la seule manière de communiquer avec lui soit de dire quelque chose, il ferait ce qu'il croit avoir compris que vous vouliez dire, mais se tromperait, et bien, il vous faudrait l'arrêter, tout recommencer, lui redire ce que vous vouliez, ce serait ridicule, ça n'est pas comme cela que nous fonctionnons avec les gens, et ça n'est pas comme cela que nous devrions fonctionner avec les machines. Donc, il y a du travail dans ce domaine, et on a une meilleure compréhension de la manière dont l'ordinateur peut être un partenaire facile à vivre dans la vie de tous les jours, ce qui rendra les malentendus plus faciles à tolérer.

Et à partir du moment où vous pouvez tolérer les malentendus, il devient bien plus facile de parler. La raison pour laquelle il est si difficile de travailler avec les ordinateurs, c'est qu'ils prennent absolument tout au pied de la lettre, et vous devez être exhaustif, complet et précis. Je n'ai pas envie d'être exhaustif, complet et précis, c'est trop embêtant. J'ai envie d'interagir de la façon dont j'interagis normalement avec un autre être humain. Je voudrais que la machine réponde comme une autre personne le ferait, ce qui pourrait être en disant « j'ai compris cette partie, mais pas celle-là ».

Une telle chose nécessiterait un nouveau genre d'intelligence artificielle. Précisément, ce domaine n'a jamais vraiment accompli les espoirs qu'on plaçait en lui, les dernières prédictions affirment qu'on atteindra une intelligence égale à celle de l'homme d'ici vingt ans, pensez-vous que cela soit crédible, les dernières découvertes permettent-elles d'envisager atteindre ce but dans ce délai ?

Si la promesse c'est que les machines deviendront de plus en plus intelligentes, alors nous l'avons tenue, et de toutes sortes de manières. Une IA égale à l'homme serait une chose merveilleuse, mais il serait assez triste de dire que nous échouons si nous avons des machines vraiment intelligentes, mais pas encore autant que l'humain. Et puis, une fois qu'on y sera, quelqu'un dira « ah, mais le véritable Saint Graal c'est lorsqu'elles seront plus intelligentes que nous ». Sachant qu'un ordinateur a battu le champion du monde d'échecs, est-ce que ça suffit à définir le niveau d'intelligence requis ?

Pas dans le sens où c'est un domaine très spécialisé. Peut-être une machine capable de passer le test de Turing ?

Le test de Turing est un test idiot pour décider si nous avons une véritable intelligence artificielle, il n'incite qu'à programmer des logiciels doués pour tromper les gens. Donc je pense que la vraie question que pose Turing, c'est « comment savoir si nous y sommes ? », ce qui n'est qu'une autre façon de dire « où est-ce ? ». Et on en revient à « ça n'est que des échecs » : on fabrique une machine très forte aux échecs, mais on dit « ça n'est que des échecs », et puis on fabrique une machine très forte au diagnostic médical, et on dira « ça n'est que du diagnostic médical » et donc, avec le temps, il y a diverses sortes de réussites, et les gens disent « ça n'est que… » Combien de ces réussites devrons-nous obtenir pour pouvoir dire que l'intelligence artificielle a satisfait les attentes ?

Il y a très peu de gens dans la recherche qui parlent d'atteindre le niveau d'intelligence de l'Homme. Allez dans n'importe quelle conférence, parlez à n'importe qui qui travaille dans l'intelligence artificielle, et demandez-leur ce que sont leurs aspirations. Ils peuvent dire « à l'avenir j'aimerais une machine aussi intelligente que vous et moi », mais ils ne diront certainement pas « le domaine sera un échec tant qu'on n'y sera pas », parce que toutes sortes de choses intéressantes auront été découvertes entretemps.

Ce sont les publicitaires et les gens qui cherchent à se placer comme importants, qui se baladent en parlant d'intelligence artificielle au niveau de l'Homme, les vingt ans que c'est censé prendre, et ils dessinent leurs courbes exponentielles. Si vous regardez de plus près ces projections sur vingt ans, ou quel que soit le nombre du moment, vous constaterez que c'est largement basé sur les extrapolations des capacités matérielles.

Parce que vous ne pouvez pas dessiner de graphique sur notre progression sur la compréhension de l'intelligence. Je sais ce qu'il y a en abscisse, c'est le temps, mais qu'y a-t-il en ordonnée pour la compréhension de l'intelligence ? Tant que nous n'aurons rien pour cela, et parce que je pense que les gens qui font ce genre de publicité ne comprennent pas les aspects logiciels de l'intelligence, ils pontifient au sujet du matériel.

Pouvez-vous nous parler de vos recherches depuis Assist ? Votre champ de recherche est principalement basé sur l'interprétation de croquis ?

Plus que ça. Depuis le début, nous nous intéressons à ce problème que j'appelle l'interaction naturelle. Vous parliez des tableaux numériques. Ils vous permettent de suivre votre doigt ou votre marqueur sur le tableau. Donc au fond c'est comme de l'encre électronique. Bien, et après ? Voilà ma vision : ce que j'aimerais c'est un tableau numérique qui me comprenne, de manière à ce que je puisse me tenir devant, et avoir une conversation avec lui. Je veux pouvoir dessiner, faire des gestes et parler sur le tableau, et je veux qu'il dessine, fasse des gestes et me parle en retour.

De manière à ce que je puisse l'utiliser comme un moyen de penser à quelque chose, et que je puisse dessiner le concept pour un bout de logiciel, et le système dirait « ça a l'air bien, mais avez-vous pensé à cela ? » Ou, dans le contexte de notre projet d'interprétation de formules chimiques, si un chimiste va dessiner une formule sur le tableau, ça serait bien si vous pouviez dire « est-ce que quelqu'un a publié un article sur ce composé ? », et le système irait chercher et vous pourriez dire « d'accord, quelqu'un a publié un papier là dessus, et si je mettais un groupe méthyle par là ? », juste en pointant du doigt.

Pourquoi pas avoir ce type de conversation, et au fait, tant que j'y suis, pourquoi se limiter au tableau, pourquoi les murs de mon bureau ne feraient pas office de surface de travail, pour que je puisse écrire dessus ?

Nous avons travaillé avec un certain nombre de sociétés pharmacologiques dans la région de Cambridge sur ce genre de projet, et l'une des choses qu'il m'ont frappé, à chaque fois que j'allais dans leurs laboratoires, il y avait des séparations en verre entre leurs bureaux, et elles étaient couvertes de formules, parce que c'est comme cela que les chimistes travaillent, ils dessinent ces formules avec du marqueur sur le verre. Pourquoi au jour d'aujourd'hui avons-nous encore affaire à de l'encre qui colle sur un bout de verre ? Pourquoi est-ce que tout cela n'est pas vivant et compris ?

Cela serait beaucoup plus intéressant, donc c'est ce que je voudrais, un tableau sur lequel je pourrais dessiner et auquel parler et designer des choses, et qu'il me réponde de la même manière.

Voilà qui rappelle beaucoup le Knowledge Navigator, imaginé par Apple en 1987, pour en savoir plus lire Retour vers le futur

Précisément, Apple a sorti l'iPad qui pourrait préfigurer de ce type d'utilisation

Bien, c'est hors de mon champ de recherche, mais puisque vous me le demandez, je pense que l'iPad est un appareil très étrange d'un point de vue scientifique. En tant qu'appareil de consommation, je le comprends parfaitement.

En tant qu'appareil de consommation je ne l'aime pas, mais c'est parce que son but principal est de faire de vous un consommateur passif d'information. L'idée de l'iPad c'est que vous vous asseyiez pour lire ou regarder des vidéos, mais il ne vous offre pas beaucoup en matière d'interaction. Vous pouvez faire des choses avec les doigts, mais c'est intentionnellement un appareil voué à délivrer de l'information.

C'est ce que beaucoup de personnes ont dit, mais il y a d'innombrables applications qui vous permettent de créer et de travailler avec, vous pouvez peindre, faire de la musique…

Avec quoi peignez-vous, qu'utilisez-vous pour peindre ?

Les doigts.

Mon Dieu ! Donc nous en sommes à ce stade de la peinture au doigt ? Vous plaisantez ? Ça, c'est de la peinture ?

Vous parliez d'écrire sur les murs, ça reste dans le même genre (rires)

C'est de la peinture au doigt, bon sang, c'est du niveau maternelle !

Pas mal pour de la maternelle…

Vous n'utilisez pas l'iPad dans vos recherches, vous ne prévoyez pas de l'utiliser ?

Nous n'utilisons pas cet appareil, mais nous utilisons des Tablet PC à longueur de temps. Nous en avons beaucoup, et ils sont très bons, nous travaillons tout le temps avec.

Vous attendiez mieux d'Apple ?

J'attends toujours mieux, comme je vous le dis, c'est ce que je veux faire. Pour ce que j'en sais, s'ils avaient conçu le type de tablette que j'adorerais avoir, elle aurait bien pu ne pas se vendre. Je ne discute pas de leur manière de faire des affaires, ils sont bien plus intelligents que moi dans ce domaine, mais vous me posez des questions sur l'iPad, et je vous dis en quoi il me déçoit.

C'est respectable, mais on aurait pu croire que de voir le succès de ce type d'appareil vous aurait enthousiasmé pour l'avenir de vos travaux dans ce domaine.

Je suis ravi que ces tablettes existent. Je serai encore plus ravi lorsqu'il y aura des tablettes qui faciliteront le type de choses que j'aimerais voir. Même s'il y avait de bonnes tablettes, je pense qu'il y a de nombreux problèmes difficiles et intéressants à résoudre : comment faire quelque chose qui rend possibles les interactions de type clavier-souris comme les modes plus naturels d'interaction ?

Si vous prenez le stylet, il est inévitable de laisser le clavier, ou pour utiliser le clavier vous devez poser le stylet, c'est énormément frustrant. Il y a là une question très intéressante : est-il possible de concevoir quelque chose qui facilite le changement de mode, parce qu'on veut pouvoir faire les deux, vous ne voudrez pas tout dessiner et vous ne voudrez pas tout taper au clavier, ce qu'il faut c'est pouvoir utiliser le mode approprié au moment voulu. Et c'est un fascinant mélange d'ergonomie, de logiciel et d'interface. Ce serait une véritable avancée si nous pouvions trouver le moyen de ne pas être gêné en passant de l'un à l'autre, cela serait vraiment intéressant.

On le ressent déjà au passage du clavier à la souris.

C'est vrai, le passage du clavier à la souris en est un petit exemple, et à côté il y a ce plus large exemple du changement de mode, lorsque vous voulez écrire sur un iPad, vous devez soit le poser à plat et taper dessus, ce qui est ridicule, soit le surélever et brancher un clavier externe dessus... avec un Tablet PC, c'est même encore pire, parce que vous le retournez, vous dessinez sur la tablette, après vous avez besoin du clavier, vous voyez les gens avec l'écran à moitié relevé, c'est idiot. C'est un problème très difficile et intéressant.

Pensez-vous pouvoir y remédier ?

J'ignore quoi faire. J'y ai réfléchi un peu, mais je n'espère pas trouver de solution. Mais j'adorerais voir quelque chose à ce sujet. Si je trouve l'inspiration, qui sait ?

Vous avez commencé à travailler au MIT en 1978, vous enseignez donc depuis longtemps ici, et vous avez pu voir les progrès de la technologie durant toutes ces années, en commençant aux tout débuts de l'informatique personnelle, comment interprétez-vous la tendance des choses, comment pensez-vous que les choses évolueront à l'avenir, vous qui êtes au cœur de la recherche sur les interfaces utilisateur et l'intelligence artificielle ?

Il y a une sorte d'observation standard qu'on fait depuis un moment, sur le fait que les technologies ont tendance à évoluer, en commençant par être remarquable et extraordinaire, puis en faisant partie de la routine, pour finir par devenir invisible, et lorsqu'elles sont invisibles vous savez qu'elles ont vraiment réussi. Un exemple standard de cette évolution, c'est l'électricité et l'énergie : d'abord c'était extraordinaire et c'était évident, puis c'est devenu la routine et maintenant c'est invisible.

Parce qu'elle est partout, elle est omniprésente, vous n'y pensez plus, elle est là quand vous en avez besoin, et ça n'a rien de nouveau, mais clairement ça devient de plus en plus vrai de manière continue. Et l'informatique se dirige dans la même voie : au départ c'était une chose extraordinaire qui impliquait que vous alliez dans un endroit donné pour l'utiliser, puis chacun a pu en bénéficier sur son bureau, ensuite chacun a pu l'emporter avec soi grâce aux portables, et maintenant bien sûr nous avons des téléphones qui sont plus puissants que certains de ces ordinateurs portables originaux, et bientôt même ceux-ci se réduiront encore pour devenir virtuellement invisibles.

On parle depuis un moment d'ordinateurs qu'on mettrait comme un vêtement, mais j'imagine plutôt quelque chose comme la montre : j'en porte une tous les jours, peut être qu'à l'avenir mon téléphone et mon ordinateur seront de la taille de ma montre, et la convergence de la technologie sera devenue si banale que je la porte tous les jours et que je suis entouré par l'informatique.