Bard s'enrichit de nouvelles fonctions, mais raconte toujours n'importe quoi

Félix Cattafesta |

Google a lancé il y a peu des extensions permettant à son bot Bard d'accéder aux comptes Gmail, Docs et Drive de l'utilisateur. L'idée est d'utiliser ces nouvelles données pour proposer des réponses plus pertinentes, par exemple pour rédiger un mail en se basant sur de précédentes conversations. Seul soucis : le bot, utilisant des technologies d'IA génératives, a tendance à inventer n'importe quoi.

Un journaliste du New York Times a essayé cette nouvelle fonction, qui n'est pour le moment pas activée par défaut et qui reste réservée aux comptes Google pour particuliers. Interrogé sur une question générale complexe, Bard a inventé une conversation en citant une newsletter n'ayant rien à voir avec le sujet. Quand le journaliste lui a demandé de se baser uniquement sur des e-mails qu'il a lui-même envoyés, le bot lui a carrément attribué une fausse citation.

Ce n'est pas vraiment surprenant étant donné que les IA génératives comme ChatGPT ou autre ont toujours eu tendance à « halluciner » certains éléments. Elles peuvent affirmer des choses fausses avec un aplomb de fer, ce qui fait qu'il faut constamment vérifier ce qu'elles disent dès que le sujet est pointu. Ces « hallucinations » se présentent souvent lorsque l'IA n'a pas été entraînée sur assez de données pour fournir une réponse, et sont un des principaux problèmes de cette technologie.

Autre cas d'usage : utiliser Bard comme agent de voyage en se basant sur un itinéraire dans ses mails pour réserver des hôtels. Si le bot a réussi à retrouver des dates de vols, il s'est emmêlé les pinceaux sur la question des aéroports et a recommandé des horaires de trains erronés. Google explique ne pas avoir encore intégré certains calendriers du rail européen, et appuie sur le fait qu'il s'agit d'une bêta.

Image : Google.

Bard s'en est tout de même bien sorti pour des tâches simples, par exemple pour résumer des mails récents provenant d'une personne ou sur un sujet spécifique. Il a en revanche échoué sur différentes questions un peu plus complexes, comme lorsqu'on lui demande de remonter les 20 courriers les plus importants d'une boîte mail ou de dresser une liste des 100 contacts les plus sollicités.

C'est évidemment un problème : si Google présente pour le moment sa fonction comme une bêta expérimentale, l'idée est de la vendre aux entreprises. Que Bard se trompe pour retranscrire une liste de course est une chose, qu'il se plante lorsqu'un comptable lui demandera de générer des graphiques en se basant sur un ensemble de mails professionnels en est une autre.

L'IA gagne au passage le droit de fouiller dans de nombreuses données d'un compte Google, ce qui n'est pas sans poser des questions de confidentialité. Si l'entreprise affirme qu'elle ne s'en servira pas pour améliorer son modèle, elle déconseille toutefois de lui envoyer des informations « que vous ne souhaiteriez pas qu'un réviseur consulte ou que Google utilise pour améliorer ses produits ». La firme de Mountain View explique que son produit deviendra plus fiable avec le temps, et mise fortement sur l'IA générative pour son avenir. Les nouvelles extensions pour Bard ne fonctionnent pour le moment qu'en anglais.

Tags
avatar smog | 

Compréhensible. Mais on pourrait aussi s'attendre à ce qu'ils temporisent la mise à disposition de leurs outils, puisque pas aussi avancés que ce qu'ils mettent pourtant en avant.
Enfin, personne n'oblige à les utiliser, c'est vrai !

avatar huexley | 

Surtout qu'ils sont marqués comme "BETA"

avatar cosmoboy34 | 

@huexley

Même en bêta chat-gpt était bien plus efficace. Ils se sont carrément planté avec bard et ils continuent…

avatar noxx09 | 

Normal, le nom en entier c'est boBard...

avatar Labsyb | 

On a tellement l’habitude de faire confiance à ce qui sort de nos machines, comme si le résultat était forcément rationnel et juste.

N’oublions pas que ces IA génératives ne comprennent pas ce qu’elles rédigent. Elles ne sont pas encore « conscientes ». Elles font des rapprochements entre les données qu’elles manipulent pour produire un résultat plausible, en imitant ce qu’un humain aurait pu produire.
Cet attendu d’imitation plausible a l’air d’entraîner le phénomène de bullshit qu’elles assènent parfois avec ce qui parait une assurance convaincante, comme si elles surjouaient l’humain, quitte à en copier la dérive de certains consistant à compléter leurs connaissances en improvisant tout ou partie de leur science avec un aplomb qui gruge l’interlocuteur, plutôt que d’en rester à ce qu’ils savent réellement.

avatar vince29 | 

Bref c'est un simulateur d'homme politique.

avatar Labsyb | 

@vince29

😜

avatar cosmoboy34 | 

@vince29

🤣🤣🤣

avatar bunam | 

@Labsyb

oué

En fait c'est comme un résultat de recherche de Google, pas mal de bushist… Mais on a l'habitude, on fait le job de trier.
Ici avec les LLM certains pensent que comme le résultat est unique la réponse est sans équivoque.

avatar nicolier | 

Quand je vois avec quel empressement nos étudiants utilisent ChatGPT depuis quelques mois et ce qu’ils copient - collent dans le moindre travail ou mémoire ! Ce n’est pas le côté le plus réjouissant

avatar Seb42 | 

@nicolier

Mais non!! Certains ici vénèrent l’IA qui est tout simplement la suite de l’évolution technologique…
C’est une catastrophe comme notre civilisation n’en a pas encore connue.

avatar nicolier | 

@Seb42

Une catastrophe je n’irai pas jusque là.

avatar jackhal | 

C'est ce qu'il y avait dans le dernier podcast de Hard Fork
https://www.nytimes.com/2023/09/22/podcasts/breaking-bard-who-owns-your-face-gamer-news.html

Franchement, si vous comprenez l'anglais oral... c'est un podcast vraiment très sympa et drôle. Par exemple le premier test que le type a fait, c'est de demander à Bard de lui dire, selon le contenu de ses emails, quels étaient ses plus gros problèmes psychologiques. C'est une question bien barrée, et en même temps une très bonne idée de test, parce qu'il y aura probablement un jour où ça sera faisable.

Si je me souviens bien (mais ça remonte), Zeynep Tufekci avait parlé dans une conférence TED de ce qui était déjà détectable selon le comportement en ligne. Par exemple, il est possible (si ma mémoire est bonne) de détecter les changements entre phases maniques et dépressives avant qu'elles se produisent chez les maniaco-dépressifs.

avatar Glop0606 | 

C'est vrai que les réponses des IA peuvent être erronées mais regardez le chemin effectué en quoi 1 an. Je cherche de plus en plus des réponses complexes sur Chat GPT/Bard car souvent ils comprennent mieux que la simple recherche Google. Perso je pense que d'ici 3-5 ans, on aura des IA "Assistant personnel" super évoluée et je trouve ça très intéressant.
Après (ou d'abord) il faudrait régler les problèmes sur la vie privée et sur la mutation que cela entrainera dans de nombreux métiers.

avatar Kumbaya | 

Pas la peine de prendre des sujets tordus avec Google. Depuis quelque temps, lorsque je demande à ma Google Home raccordée à Spotify: "Qu'est-ce que j'écoute"? Elle n'est plus fichue de répondre.
"Qui chante?" elle me récite l'alphabet. Si si, je vous assure.
"Quel est l'artiste?" elle me sort l'article Wikipedia sur l'Artiste.
"Quel est le titre actuel?" elle me lance France Info, alors qu'elle me conseille de lui demander l'artiste et le titre actuel pour répondre à ma pauvre question toute bête...
Donc je ne sais pas comment lui demander ça.

avatar jfg21 | 

Je compare les robots conversationnels sur des taches complexes depuis qu'ils sont disponibles. Il y a un apprentissage à faire pour obtenir de bonnes ou très bonnes réponses, ne serait-ce qu'en prenant connaissance déjà de la FAQ de chaque fournisseur. La manière de poser une question (le Prompt) n'est pas sans conséquence sur les réponses obtenues à tel point que le métier de Prompt Engineer a de beaux jours devant lui.
D'après mon expérience, Claude AI de la société Anthropic est de loin la seule IA qui donne vraiment des réponses qualitatives sur les sujets que je connais très bien.
ChatGPT 3.5 ou 4.0, ainsi que Bard dans sa toute nouvelle ou ancienne version Beta, sont vraiment assez loin, même en formulant attentivement les questions.
Bing, avec ChatGPT théoriquement accessible, est souvent complètement loufoque car il répond trop vite ; c'est la contrepartie de l'utilisation des ressources en ligne par rapport au système fermé d'OPEN AI avec les versions indépendantes de tout moteur de recherche. Bing "déteste" également être contredit et coupe nette toute conversation qui remet en cause ses réponses ; au moins, c'est clair.
Llama et Llama 2, en Open Source puisque c'est le choix de Meta, constituent pour l'instant de vastes plaisanteries : mener une conversation avec les robots qui les utilisent s'avère extrêmement drôle ou agaçant au choix (demander à l'IA de discuter en français lui fera répondre en anglais que, bien entendu, elle parle en français ... et elle s'entête ensuite avec un franglais assez cocasse). Inutilisable à cette heure.
Opera vient d'intégrer sa propre IA, ARIA, basée sur les outils d'Open AI, mais elle est non accessible en français pour l'instant.
Claude Instant et Claude 2 sont hélas seulement disponibles aux USA et en GB commercialement ; donc VPN obligatoire (Opera est particulièrement utile avec son VPN intégré). Gros avantage : on peut leur donner à digérer des documents comportant plusieurs centaines de pages, en pdf par exemple. Google aussi dans une certaine mesure mais Bard est exaspérant sur d'autres aspects.

Une façon de tester beaucoup d'IA conversationnels et d'autres petites choses sans se ruiner tout en passant rapidement des unes aux autres : l'application POE disponible sur l'AppStore. Déjà, la version gratuite et limitée permet pas mal de choses et VPN inutile. Un excellent moyen de comparer et de découvrir ce qui existe dans une certaine mesure.

Dernière chose : il est VRAIMENT important d'apprendre à "prompter" correctement et aussi de comprendre techniquement comment les sorties sont élaborées par rapport aux entrées (se renseigner sur le machine learning et le deep learning n'est pas un luxe : vous piloteriez une Ferrari sans avoir ni le permis, ni quelques notions de mécanique ?)

avatar Labsyb | 

@jfg21

Au fond c’est comme avec ma femme :

Si je lui dis: tu as sorti les poubelles ?
Elle me répond : non mais tu peux le faire.

Si je lui dis : tu devrais sortir les poubelles elles sont pleines.
Elle me répond : t’as qu’à le faire conn*rd

Si je lui dis : si tu sors les poubelles, je t’invite au restau
Elle me répond : Olk mais un bon alors hein (et elle les sort dans la foulée)

avatar cosmoboy34 | 

@Labsyb

🤣🤣

avatar cosmoboy34 | 

@jfg21

Ça viendra naturellement, tout comme il a fallu apprendre à faire des requêtes Google. C’était pas naturel au début et avec le temps c’est devenu ancré dans les habitudes

avatar jopaone | 

Oui mais Google va présenter son modèle Gemini cet automne, on va rapidement passer au level suivant

avatar Florian Wallez | 

Je connais des gens qui « hallucinent » complètement sur n’importe quel sujet, disant n’importe quoi avec un aplomb époustouflant. Pas besoin d’IA pour ça, certains humains sont déjà très performants là dessus… 🙄

avatar 3RIC | 

Bard joue de la barde et ça barde j’ai Google.
Déjà parti 💨

avatar Phiphi | 

En pratique on fait surtout des progrès en générateur de langue de bois pour le moment 🙄

CONNEXION UTILISATEUR