Malgré les avancées, on a un peu tendance à oublier que les LLM sont des machines pouvant facilement raconter n’importe quoi. Le New York Times a récemment commandé une analyse sur les résumés de recherches par IA affichés en haut de Google Search dans certains pays. Ils visent juste 91 % du temps… ce qui veut dire qu’une part significative des réponses sont fausses.

À l’échelle de Google, c’est immense : Google traite environ 5 milliards de requêtes par an, ce qui signifie que le moteur renvoie des dizaines de millions de mauvaises réponses chaque heure, ou des centaines de milliers par minute.
Pour cette étude, les analystes ont fait appel à un test nommé SimpleQA pensé par OpenAI. De premiers essais ont été réalisés sur Gemini 2, puis sur le Gemini 3 sorti en février dernier. Le premier modèle a donné 85 % de bonnes réponses, là où son successeur est passé à 91 %.
Si on peut observer que Google s’améliore, on peut aussi se dire que l’entreprise a rapidement intégré un modèle avec des problèmes de fiabilité sur son moteur de recherche. Un porte-parole de l’entreprise a dénoncé « de sérieuses lacunes » dans cette étude, expliquant qu’elle ne « reflète pas ce que les gens recherchent réellement sur Google ».
Cependant, les propres analyses de Mountain View ne sont pas beaucoup plus enthousiasmantes. L’entreprise a constaté que Gemini 3 produisait des informations erronées dans 28 % des cas. Google a indiqué que ses « AI Overviews » embarquées dans Google Search étaient plus précises que Gemini et qu’elle fonctionnait de manière autonome.











