Cloudflare accuse Perplexity de moissonner les sites web bloquant l’accès aux bots IA

Félix Cattafesta

mardi 05 août 2025 à 10:25 • 19

On le sait, les IA génératives ont besoin d’énormément de données (textuelles, vidéo) pour se former et s’améliorer. Certaines entreprises sont suspectées de se servir sans demander la permission des auteurs, et le navigateur par IA Perplexity n’est pas en reste. Le géant Cloudflare l’accuse aujourd’hui de moissonner des sites ayant explicitement indiqué qu’ils refusaient d’être analysés par l’IA.

Le papier des chercheurs explique qu’en temps normal, Perplexity fouille le web avec un agent utilisateur déclaré, c’est-à-dire une sorte de signal indiquant à un site web l’identité d’un visiteur. Les propriétaires de sites peuvent bloquer ceux qu’ils considèrent comme indésirables, et notamment les plateformes d’IA. Or, lorsque c’est le cas, Perplexity semble masquer son identité en modifiant son agent utilisateur pour contourner les restrictions.

« Nous constatons que Perplexity modifie régulièrement son agent utilisateur et ses ASN sources afin de dissimuler son activité d'exploration, et qu'il ignore les fichiers robots.txt, voire ne les récupère pas », explique Cloudflare. « Robots.txt » est un fichier indiquant aux moteurs de recherche et aux sociétés d’IA quelles pages peuvent être indexées et celles qui ne doivent pas l'être.

Cloudflare indique avoir reçu des plaintes de plusieurs utilisateurs ayant bloqué Perplexity mais tout de même remarqué que la plateforme parcourait leur site et pouvait répondre à des questions sur leurs contenus. « Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour. Nous avons pu établir l'empreinte de ce crawler en utilisant une combinaison d'apprentissage automatique et de signaux de réseau », ajoute Cloudflare.

Perplexity n’a pas tardé à répondre aux accusations dans un communiqué bien remonté. Elle y affirme que son service analyse les pages pour répondre aux demandes des utilisateurs, sans réutiliser son contenu à des fins d’entraînement. Les pages seraient uniquement consultées lorsqu’un utilisateur demande des informations sur le sujet qu’elle contient, et Perplexity ne récupérerait que les informations nécessaires.

Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadaptés pour faire la distinction entre les assistants d'IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant utile d'un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic web légitime.

Le billet accuse Cloudflare de ne pas avoir répondu aux questions de Perplexity sur la méthodologie employée et d’avoir simplement cherché à se faire un coup de pub. L’entreprise d’IA dénonce de grosses erreurs dans le travail de recherche, avec des diagrammes techniques éloignés de la réalité. Cloudflare n’a pas encore répondu à ces accusations.

Pour aller plus loin :

Pour les 50 ans d’Apple, MacGeneration publie un livre événement

Précommandez-le dès maintenant et profitez-en pour découvrir nos nouveaux goodies, ou prolonger votre abonnement au Club iGen à tarif réduit.

Découvrez nos offres

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

Cloudflare accuse Perplexity de moissonner les sites web bloquant l’accès aux bots IA

Pour aller plus loin :

Pour les 50 ans d’Apple, MacGeneration publie un livre événement

Précommandez le livre et rejoignez la fête

Actualités

Pourquoi les lunettes connectées ne détrôneront sans doute pas le smartphone

Safari 26.4 apporte de nombreuses nouveautés aux créateurs de sites web

La guerre des prix sur les produits Apple est lancée entre Joybuy et Amazon

Mahsa Alert : l’app que personne ne devrait avoir à installer

Honda rétrograde sur l'électrique et envoie à la casse la voiture imaginée avec Sony

Portrait d’un « Apple Pin » : à quoi faut-il s’attendre pour le futur compagnon de l’iPhone ?

Web mobile : Android met Safari dans le rétroviseur

Le Launchpad est mort, mais Apple veut bloquer les clones

50 ans d’Apple : J-7 pour commander notre livre (et gagner un MacBook Neo pas comme les autres)

25 ans de Mac OS X : de 10.0 à 10.2, l’ère des pionniers

macOS 26.4 ajoute un avertissement au moment de copier une commande inconnue dans le Terminal

Test de l’iPad Air M4 : le milieu de gamme qui s’essouffle

Freebox Révolution : pour éviter que l’afficheur ne tombe en panne, Free propose de l’éteindre

Apple a mis à jour les Studio Display avec « displayOS » 26.4 : un firmware de 2,2 Go pour un écran

Apple pourrait distiller Gemini pour alimenter le nouveau Siri

App Store Connect muscle ses outils d’analyse avec plus de 100 nouvelles données

Image du moment

Tests

Test des MacBook Pro M5 Pro et M5 Max : rien ne change dehors, tout change dedans

Test du MacBook Air M5 : meilleur que le M4, mais jusqu'à quel point ?

Test du MacBook Neo : le portable pour le reste d’entre nous

Test du Kuxiu X53 : un support pour MacBook avec un hub USB intégré

Test des webcams Insta360 Link 2 Pro et Link 2C Pro : 4K, IA et suivi motorisé, Insta360 monte en gamme

Test de l'écran 5K de Japannext : pas de fioritures et un prix intéressant