Ouvrir le menu principal

MacGeneration

Recherche

CloudFlare propose de bloquer d’un clic tous les robots liés à l’IA générative

Nicolas Furno

jeudi 11 juillet 2024 à 16:30 • 14

Ailleurs

CloudFlare a annoncé récemment l’ajout d’une option qui se charge de bloquer tous les robots liés aux intelligences artificielles génératives, comme GPTBot qui est géré par OpenAI pour ChatGPT, ClaudeBot d’Anthropic qui alimente Claude ou encore Applebot-Extended qui servira de fondations aux fonctionnalités d’Apple Intelligence. Cet ajout répond à la demande d’une partie des créateurs de sites web qui ne veulent pas que leurs contenus servent à alimenter les grands modèles de langage qui servent de base aux IA génératives. Contrairement à ce que l’on pourrait penser, un tel blocage est en réalité difficile à obtenir.

La nouvelle option dans les réglages d’un site web géré par CloudFlare. Image MacGeneration.

Rappelons tout d’abord que les robots sont très courants sur le réseau internet, il s’agit de programmes qui visitent des pages web pour diverses raisons. Les moteurs de recherche sont les premiers utilisateurs de ces robots, qui leurs permettent d’indexer toutes les pages web existantes pour fournir des résultats de recherche à leurs utilisateurs. Des robots peuvent aussi servir à vérifier si une page web a changé, si un site web ne répond plus ou bien d’autres tâches. Dernièrement, des robots ont permis de récupérer le maximum de texte publié sur internet afin de constituer des corpus suffisamment grands pour satisfaire les besoins des grands modèles de langage qui sont ensuite utilisés par les IA comme ChatGPT et ses concurrents.

Il existe une convention depuis les années 1990 pour (notamment, le fichier servant aussi à indiquer la carte du site, ou sitemap, qui liste toutes les URL) réguler l’accès des robots aux sites web : le webmestre peut ajouter un robots.txt à la racine de son site. À l’intérieur de ce fichier, il peut indiquer s’il autorise ou refuse l’accès à tout ou partie de ses pages web, pour tous les robots ou pour une partie des robots. La syntaxe consiste à lister des robots en fonction de leur identifiant (User-agent) puis les pages autorisées (Allow) et celles qui sont interdites. Par exemple, ces deux lignes vont indiquer au robot de Google de ne pas indexer toutes les URL avec /secret/, toutes les autres lui sont autorisées.

User-agent: Googlebot
Disallow: /secret/

Même si cette convention est en passe de devenir un standard, il faut bien comprendre qu’il ne s’agit pas d’une restriction technique, mais bien d’une convention que chaque robot peut respecter ou ignorer. Si les plus gros moteurs de recherche, Google en tête, se sont engagés à respecter les règles inscrites dans le fichier robots.txt, c’est loin d’être le cas de tous les acteurs. En particulier, les créateurs des IA génératives ont tendance à ignorer les avis des créateurs de sites et à indexer tous les contenus accessibles, indépendamment du contenu du fichier en question. Apple fait figure d’exception à cet égard, mais cette convention ne suffit pas le plus souvent.

Pour bloquer les robots liés à l’intelligence artificielle, il faut mettre en place une solution technique, qui leur bloque l’accès au serveur et les empêche ainsi d’indexer le contenu qu’il contient. La solution dépend du serveur web utilisé, Robb Knight a détaillé ce qu’il a mis en œuvre pour Nginx par exemple, mais CloudFlare apporte une option nettement plus simple pour ses clients. En cochant la case dédiée dans les paramètres « Bots », un utilisateur du service peut bénéficier d’un blocage technique de tous les robots connus liés à l’IA.

Si le sujet vous intéresse, CloudFlare a publié quelques détails sur les robots liés à l’intelligence artificielle qui indexent le plus les sites gérés par ses soins. Petite surprise au passage, GPTBot n’est pas le premier, il s’agit de Bytespider, un robot programmé par ByteDance, le propriétaire de TikTok.

L’activité des robots liés aux intelligences artificielles génératives repérés par CloudFlare depuis un an. Les plus actifs ne sont pas ceux que l’on croit : GPTBot est loin du trio de tête, par exemple. Image CloudFlare.

CloudFlare précise aussi que son outil ne se base pas sur une base de données statiques, car les robots peuvent aisément se présenter sous un autre nom. L’entreprise a mis au point un système basé sur de l’apprentissage automatisé pour repérer les robots et les bloquer quel que soit leur identifiant. Ces méthodes de détection seront mises à jour régulièrement pour contrer les mesures mises en place pour les contourner, un jeu du chat et de la souris qui peut aussi bloquer des visiteurs légitimes, c’est le problème.

Malgré tout, la solution proposée par CloudFlare est indéniablement la plus simple et complète à l’heure actuelle si vous ne voulez pas que les robots de l’IA viennent indexer votre site. Cette nouvelle option est proposée gratuitement à tous les clients de l’entreprise.

Source :

Accroche : montage MacGeneration, photos Tim Mossholder et MacGeneration.

Soutenez MacGeneration sur Tipeee

MacGeneration a besoin de vous

Vous pouvez nous aider en vous abonnant ou en nous laissant un pourboire

Soutenez MacGeneration sur Tipeee

Tesla a voulu forcer la main des Pays-Bas pour valider sa conduite autonome en Europe, ça ne s’est pas bien passé

24/11/2025 à 22:33

• 16


Anthropic veut reprendre la couronne du meilleur modèle avec Opus 4.5 et ajoute Claude Code à son app pour macOS

24/11/2025 à 21:18

• 6


Il y a forcément un écran qui vous correspond : les meilleures offres BenQ du Black Friday 📍

24/11/2025 à 20:00

• 0


Jony Ive et Sam Altman ont des prototypes de leur mystérieux appareil pensé autour de l’IA

24/11/2025 à 18:49

• 18


Réduction rare sur le Magic Keyboard USB-C Touch ID avec pavé numérique

24/11/2025 à 17:46

• 17


Black Friday : jusqu’à - 63 % sur les offres Creative Cloud, même pour les abonnés existants

24/11/2025 à 16:13

• 12


Black Friday éclairage connecté : l’ampoule Hue Essential dès 11 € et autres promos intéressantes

24/11/2025 à 16:03

• 7


Essai de Starlink dans un avion Air France : les performances du Wi-Fi s’envolent

24/11/2025 à 16:03

• 28


iPhone 17 Pro : Apple célèbre ses performances même sous le cagnard dans une pub

24/11/2025 à 13:20

• 10


Imagen, le logiciel d'édition photo par IA, offre 50% de réduction sur TOUT pour le Black Friday 📍

24/11/2025 à 11:06

• 0


Black Friday : 20 % de remise sur de nombreux bracelets Apple, y compris les coloris récents

24/11/2025 à 10:24

• 6


Les prix des MacBook Air M4 s'effondrent : à partir de 869 € ! 🆕

24/11/2025 à 09:21

• 50


100 € de réduction sur l'ensemble de la gamme MacBook Pro M5

24/11/2025 à 08:51

• 0


Steam est enfin optimisé pour les puces Apple Silicon et gagne une icône adaptée à macOS Tahoe

24/11/2025 à 08:45

• 47


Zone Bar affiche vos fuseaux horaires dans la barre des menus de macOS

24/11/2025 à 08:00

• 8


iOS 27, macOS 27 : une année sous le signe de Snow Leopard

24/11/2025 à 07:56

• 62