Ouvrir le menu principal

MacGeneration

Recherche

Cloudflare accuse Perplexity de moissonner les sites web bloquant l’accès aux bots IA

Félix Cattafesta

mardi 05 août 2025 à 10:25 • 10

Services

On le sait, les IA génératives ont besoin d’énormément de données (textuelles, vidéo) pour se former et s’améliorer. Certaines entreprises sont suspectées de se servir sans demander la permission des auteurs, et le navigateur par IA Perplexity n’est pas en reste. Le géant Cloudflare l’accuse aujourd’hui de moissonner des sites ayant explicitement indiqué qu’ils refusaient d’être analysés par l’IA.

Image Cloudflare

Le papier des chercheurs explique qu’en temps normal, Perplexity fouille le web avec un agent utilisateur déclaré, c’est-à-dire une sorte de signal indiquant à un site web l’identité d’un visiteur. Les propriétaires de sites peuvent bloquer ceux qu’ils considèrent comme indésirables, et notamment les plateformes d’IA. Or, lorsque c’est le cas, Perplexity semble masquer son identité en modifiant son agent utilisateur pour contourner les restrictions.

« Nous constatons que Perplexity modifie régulièrement son agent utilisateur et ses ASN sources afin de dissimuler son activité d'exploration, et qu'il ignore les fichiers robots.txt, voire ne les récupère pas », explique Cloudflare. « Robots.txt » est un fichier indiquant aux moteurs de recherche et aux sociétés d’IA quelles pages peuvent être indexées et celles qui ne doivent pas l'être.

Cloudflare indique avoir reçu des plaintes de plusieurs utilisateurs ayant bloqué Perplexity mais tout de même remarqué que la plateforme parcourait leur site et pouvait répondre à des questions sur leurs contenus. « Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour. Nous avons pu établir l'empreinte de ce crawler en utilisant une combinaison d'apprentissage automatique et de signaux de réseau », ajoute Cloudflare.

Perplexity n’a pas tardé à répondre aux accusations dans un communiqué bien remonté. Elle y affirme que son service analyse les pages pour répondre aux demandes des utilisateurs, sans réutiliser son contenu à des fins d’entraînement. Les pages seraient uniquement consultées lorsqu’un utilisateur demande des informations sur le sujet qu’elle contient, et Perplexity ne récupérerait que les informations nécessaires.

Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadaptés pour faire la distinction entre les assistants d'IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant utile d'un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic web légitime.

Le billet accuse Cloudflare de ne pas avoir répondu aux questions de Perplexity sur la méthodologie employée et d’avoir simplement cherché à se faire un coup de pub. L’entreprise d’IA dénonce de grosses erreurs dans le travail de recherche, avec des diagrammes techniques éloignés de la réalité. Cloudflare n’a pas encore répondu à ces accusations.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

TSMC licencie des employés soupçonnés d’avoir divulgué des informations sur la production de puces 2 nm

12:30

• 0


Astuce : utiliser Exporter pour faire une sauvegarde du contenu de l’app Notes

12:00

• 5


Linux améliore sa compatibilité avec le HFS et le FireWire… qu'Apple abandonne

10:55

• 1


Cloudflare accuse Perplexity de moissonner les sites web bloquant l’accès aux bots IA

10:25

• 10


Tim Cook promet une feuille de route “incroyable”, comme chaque année

09:52

• 17


iPhone 17 Air : la batterie tiendra-t-elle le coup ?

07:59

• 27


Quand Google trolle Siri, ça donne ça

06:51

• 25


Apple prépare-t-elle ses propres capteurs photo ?

04/08/2025 à 22:23

• 19


L’Arcom met en demeure cinq sites porno, dont Xhamster, pour non-vérification de l’âge de leurs visiteurs

04/08/2025 à 21:17

• 70


Ubiquiti propose d’installer gratuitement UniFi OS sur n’importe quel serveur 🆕

04/08/2025 à 18:00

• 33


L'IA est là, et elle est déjà incontournable

04/08/2025 à 18:00

• 36


La facture augmente pour les clients d’Enedis refusant encore le compteur Linky

04/08/2025 à 17:12

• 285


Même en fibre optique, Orange propose des offres hors de prix pour ceux qui ne veulent vraiment pas d’internet

04/08/2025 à 16:30

• 87


LG lance un écran 5K ultra-large de 40 pouces compatible Thunderbolt 5 pour 1 599 €

04/08/2025 à 12:00

• 49


Une notification, un faux site, un virement : l’arnaque par étapes 📍

04/08/2025 à 11:50

• 0


Finalement, Google ne va pas casser les liens raccourcis avec goo.gl

04/08/2025 à 11:45

• 1