Ouvrir le menu principal

MacGeneration

Recherche

CloudFlare propose de bloquer d’un clic tous les robots liés à l’IA générative

Nicolas Furno

jeudi 11 juillet 2024 à 16:30 • 14

Ailleurs

CloudFlare a annoncé récemment l’ajout d’une option qui se charge de bloquer tous les robots liés aux intelligences artificielles génératives, comme GPTBot qui est géré par OpenAI pour ChatGPT, ClaudeBot d’Anthropic qui alimente Claude ou encore Applebot-Extended qui servira de fondations aux fonctionnalités d’Apple Intelligence. Cet ajout répond à la demande d’une partie des créateurs de sites web qui ne veulent pas que leurs contenus servent à alimenter les grands modèles de langage qui servent de base aux IA génératives. Contrairement à ce que l’on pourrait penser, un tel blocage est en réalité difficile à obtenir.

La nouvelle option dans les réglages d’un site web géré par CloudFlare. Image MacGeneration.

Rappelons tout d’abord que les robots sont très courants sur le réseau internet, il s’agit de programmes qui visitent des pages web pour diverses raisons. Les moteurs de recherche sont les premiers utilisateurs de ces robots, qui leurs permettent d’indexer toutes les pages web existantes pour fournir des résultats de recherche à leurs utilisateurs. Des robots peuvent aussi servir à vérifier si une page web a changé, si un site web ne répond plus ou bien d’autres tâches. Dernièrement, des robots ont permis de récupérer le maximum de texte publié sur internet afin de constituer des corpus suffisamment grands pour satisfaire les besoins des grands modèles de langage qui sont ensuite utilisés par les IA comme ChatGPT et ses concurrents.

Il existe une convention depuis les années 1990 pour (notamment, le fichier servant aussi à indiquer la carte du site, ou sitemap, qui liste toutes les URL) réguler l’accès des robots aux sites web : le webmestre peut ajouter un robots.txt à la racine de son site. À l’intérieur de ce fichier, il peut indiquer s’il autorise ou refuse l’accès à tout ou partie de ses pages web, pour tous les robots ou pour une partie des robots. La syntaxe consiste à lister des robots en fonction de leur identifiant (User-agent) puis les pages autorisées (Allow) et celles qui sont interdites. Par exemple, ces deux lignes vont indiquer au robot de Google de ne pas indexer toutes les URL avec /secret/, toutes les autres lui sont autorisées.

User-agent: Googlebot
Disallow: /secret/

Même si cette convention est en passe de devenir un standard, il faut bien comprendre qu’il ne s’agit pas d’une restriction technique, mais bien d’une convention que chaque robot peut respecter ou ignorer. Si les plus gros moteurs de recherche, Google en tête, se sont engagés à respecter les règles inscrites dans le fichier robots.txt, c’est loin d’être le cas de tous les acteurs. En particulier, les créateurs des IA génératives ont tendance à ignorer les avis des créateurs de sites et à indexer tous les contenus accessibles, indépendamment du contenu du fichier en question. Apple fait figure d’exception à cet égard, mais cette convention ne suffit pas le plus souvent.

Pour bloquer les robots liés à l’intelligence artificielle, il faut mettre en place une solution technique, qui leur bloque l’accès au serveur et les empêche ainsi d’indexer le contenu qu’il contient. La solution dépend du serveur web utilisé, Robb Knight a détaillé ce qu’il a mis en œuvre pour Nginx par exemple, mais CloudFlare apporte une option nettement plus simple pour ses clients. En cochant la case dédiée dans les paramètres « Bots », un utilisateur du service peut bénéficier d’un blocage technique de tous les robots connus liés à l’IA.

Si le sujet vous intéresse, CloudFlare a publié quelques détails sur les robots liés à l’intelligence artificielle qui indexent le plus les sites gérés par ses soins. Petite surprise au passage, GPTBot n’est pas le premier, il s’agit de Bytespider, un robot programmé par ByteDance, le propriétaire de TikTok.

L’activité des robots liés aux intelligences artificielles génératives repérés par CloudFlare depuis un an. Les plus actifs ne sont pas ceux que l’on croit : GPTBot est loin du trio de tête, par exemple. Image CloudFlare.

CloudFlare précise aussi que son outil ne se base pas sur une base de données statiques, car les robots peuvent aisément se présenter sous un autre nom. L’entreprise a mis au point un système basé sur de l’apprentissage automatisé pour repérer les robots et les bloquer quel que soit leur identifiant. Ces méthodes de détection seront mises à jour régulièrement pour contrer les mesures mises en place pour les contourner, un jeu du chat et de la souris qui peut aussi bloquer des visiteurs légitimes, c’est le problème.

Malgré tout, la solution proposée par CloudFlare est indéniablement la plus simple et complète à l’heure actuelle si vous ne voulez pas que les robots de l’IA viennent indexer votre site. Cette nouvelle option est proposée gratuitement à tous les clients de l’entreprise.

Source :

Accroche : montage MacGeneration, photos Tim Mossholder et MacGeneration.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Promos sur des batteries externes de grosse capacité pour iPhone et MacBook

09:50

• 0


iOS 19 pourrait offrir plusieurs nouveautés pour Stage Manager et les styles photographiques

09:15

• 12


Profitez de Microsoft Office à petit prix pendant les French Days 2025 📍

01/05/2025 à 23:20

• 0


Apple : des résultats solides, mais la Chine et les droits de douane inquiètent

01/05/2025 à 22:56

• 17


La direction de Tesla aurait cherché un remplaçant pour Musk, suite aux difficultés de l’entreprise

01/05/2025 à 21:00

• 71


Microsoft augmente les prix des Xbox, de leurs manettes et de leurs jeux

01/05/2025 à 16:05

• 55


MacBook Air M4 : la chute des prix se poursuit encore sur ce nouvel incontournable 🆕

01/05/2025 à 15:30

• 55


Nos trucs et astuces pour mieux utiliser Apple Pay sur votre iPhone

01/05/2025 à 15:20

• 32


French Days : le très robuste SSD externe Samsung T7 Shield 2 To à 169 € (- 23 %)

01/05/2025 à 11:30

• 9


French Days : Orange et Sosh suppriment les frais de mise en service qui venaient d’être ajoutés

01/05/2025 à 11:00

• 20


Gabriel Attal souhaite limiter drastiquement l’accès des mineurs aux réseaux sociaux, en imitant la Chine

01/05/2025 à 10:30

• 72


Apple mord la poussière face à Epic, mais ne rend pas les armes

01/05/2025 à 10:00

• 63


French Days : CyberGhost, le meilleur VPN pour Mac à 2,03 € par mois (et franchement, vous auriez tort de vous en priver) 📍

30/04/2025 à 23:47

• 0


Google : NotebookLM génère des podcasts en français à partir de vos documents

30/04/2025 à 16:24

• 20


Raycast arrive sur l’iPhone, essentiellement pour les fonctions liées à l’IA

30/04/2025 à 15:06

• 5


Free Pro passe à 8 Gb/s en symétrique pour tous les clients, mêmes les anciens

30/04/2025 à 13:30

• 32