Ouvrir le menu principal

MacGeneration

Recherche

Cloudflare accuse Perplexity de moissonner les sites web bloquant l’accès aux bots IA

Félix Cattafesta

mardi 05 août 2025 à 10:25 • 19

Services

On le sait, les IA génératives ont besoin d’énormément de données (textuelles, vidéo) pour se former et s’améliorer. Certaines entreprises sont suspectées de se servir sans demander la permission des auteurs, et le navigateur par IA Perplexity n’est pas en reste. Le géant Cloudflare l’accuse aujourd’hui de moissonner des sites ayant explicitement indiqué qu’ils refusaient d’être analysés par l’IA.

Image Cloudflare

Le papier des chercheurs explique qu’en temps normal, Perplexity fouille le web avec un agent utilisateur déclaré, c’est-à-dire une sorte de signal indiquant à un site web l’identité d’un visiteur. Les propriétaires de sites peuvent bloquer ceux qu’ils considèrent comme indésirables, et notamment les plateformes d’IA. Or, lorsque c’est le cas, Perplexity semble masquer son identité en modifiant son agent utilisateur pour contourner les restrictions.

« Nous constatons que Perplexity modifie régulièrement son agent utilisateur et ses ASN sources afin de dissimuler son activité d'exploration, et qu'il ignore les fichiers robots.txt, voire ne les récupère pas », explique Cloudflare. « Robots.txt » est un fichier indiquant aux moteurs de recherche et aux sociétés d’IA quelles pages peuvent être indexées et celles qui ne doivent pas l'être.

Cloudflare indique avoir reçu des plaintes de plusieurs utilisateurs ayant bloqué Perplexity mais tout de même remarqué que la plateforme parcourait leur site et pouvait répondre à des questions sur leurs contenus. « Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour. Nous avons pu établir l'empreinte de ce crawler en utilisant une combinaison d'apprentissage automatique et de signaux de réseau », ajoute Cloudflare.

Perplexity n’a pas tardé à répondre aux accusations dans un communiqué bien remonté. Elle y affirme que son service analyse les pages pour répondre aux demandes des utilisateurs, sans réutiliser son contenu à des fins d’entraînement. Les pages seraient uniquement consultées lorsqu’un utilisateur demande des informations sur le sujet qu’elle contient, et Perplexity ne récupérerait que les informations nécessaires.

Cette controverse révèle que les systèmes de Cloudflare sont fondamentalement inadaptés pour faire la distinction entre les assistants d'IA légitimes et les menaces réelles. Si vous ne pouvez pas distinguer un assistant utile d'un scraper malveillant, vous ne devriez probablement pas prendre de décisions sur ce qui constitue un trafic web légitime.

Le billet accuse Cloudflare de ne pas avoir répondu aux questions de Perplexity sur la méthodologie employée et d’avoir simplement cherché à se faire un coup de pub. L’entreprise d’IA dénonce de grosses erreurs dans le travail de recherche, avec des diagrammes techniques éloignés de la réalité. Cloudflare n’a pas encore répondu à ces accusations.

Soutenez MacGeneration sur Tipeee

MacGeneration a besoin de vous

Vous pouvez nous aider en vous abonnant ou en nous laissant un pourboire

Soutenez MacGeneration sur Tipeee

Système et applications périmées, mots de passe absents : la sécurité informatique du Louvre défaillante

05/11/2025 à 22:00

• 24


Apple utiliserait une version à 1 200 milliards de paramètres de Gemini pour motoriser Siri

05/11/2025 à 21:15

• 41


Le Black Friday commence chez Proton : Mail à 1,99 €, VPN à 2,49 €, Unlimited à 6,49 € 🆕

05/11/2025 à 21:10

• 29


Voici l'écran 5K que tous les pros attendaient !

05/11/2025 à 21:00

• 0


Test du SSD externe Transcend ESD420 : il colle parfaitement à l’iPhone, un peu moins au Mac

05/11/2025 à 20:30

• 2


Une procédure de suspension engagée contre la plateforme Shein par le gouvernement français

05/11/2025 à 18:43

• 89


La menace fantôme : les HomePod mini et HomePod 2 souffrent d'un problème d'activation inopinée sur la partie tactile

05/11/2025 à 17:05

• 42


Fortnite débarque sur les PC Windows ARM, et ce n'est pas un changement anodin

05/11/2025 à 17:05

• 16


Recharge des voitures : Tesla active son MultiPass en France

05/11/2025 à 15:36

• 53


Le MacBook Air M2 est à son prix le plus bas sur Amazon, avec 16 Go de RAM 🆕

05/11/2025 à 14:10

• 53


Guide d’achat : plutôt MacBook Pro M5 ou M4 Pro ?

05/11/2025 à 13:30

• 8


Jusqu'à 360 € de cash back sur le MacBook Pro M5 et des offres intéressantes sur les Apple Watch Ultra 2 et AirPods Max

05/11/2025 à 12:20

• 3


Le code source de l'App Store en ligne a fuité

05/11/2025 à 11:55

• 6


macOS 26.1 casse iCloud dans les machines virtuelles macOS

05/11/2025 à 11:00

• 3


OWL : comment OpenAI a isolé Chromium pour bâtir ChatGPT Atlas

05/11/2025 à 10:29

• 23


Des promotions sur de nombreux MacBook Pro M4 Pro et M4 Max, dès 2 070 €

05/11/2025 à 08:35

• 23