Ouvrir le menu principal

MacGeneration

Recherche

L'Europe pourrait commander à ChatGPT de dévoiler ses sources

Stéphane Moussie

vendredi 28 avril 2023 à 18:00 • 76

Ailleurs

Quels sites a bien pu aspirer ChatGPT pour développer son intelligence ? OpenAI pourrait être amené à répondre à cette question importante une fois que l'AI Act, la régulation européenne sur l'intelligence artificielle, sera adoptée. Selon le Wall Street Journal, le Parlement européen prévoit d'obliger les créateurs d'IA génératives à révéler quels contenus couverts par le droit d'auteur ont servi à entraîner leurs technologies.

Une partie du contenu de la base de données C4 qui a servi à entraîner plusieurs grands modèles de langage. Infographie Washington Post.

Dans la version préliminaire du projet de régulation, il est question que les entreprises publient « un résumé suffisamment détaillé » des contenus exploités. Si elle venait être entérinée — il reste encore de multiples étapes à passer pour l'AI Act —, cette obligation pourrait donner une nouvelle arme aux ayants droit. Des médias et des artistes ont ouvert un front pour obtenir une compensation en contrepartie de l'utilisation de leurs œuvres par des modèles génératifs.

À défaut de savoir quelles bases de données exploitent ChatGPT, un secret bien gardé par OpenAI, le Washington Post a analysé la base C4 de Google qui est l'une des sources de LLaMA de Meta et d'autres grands modèles de langage. Dans cet instantané de 15 millions de sites web, la base de données de brevets de Google et Wikipédia sont les deux références les plus importantes (respectivement 0,46 % et 0,19 %). Les catégories les plus représentées sont le business/industrie (16 %), les nouvelles technologies (15 %), la presse (13 %), le divertissement (11 %) et les sciences (9 %). L'infographie du Washington Post vaut le coup d'œil et il y a même un moteur de recherche pour voir si votre site fait partie de l'ensemble.

Bien que la base C4 soit déjà énorme (environ 750 Go), les modèles de langage utilisent des quantités de données encore plus faramineuses. GPT-3, le moteur de ChatGPT, a été entrainé au départ avec 40 fois plus de données.

L

L'AI Act, ou comment l'Europe cherche à réguler l'intelligence artificielle

Soutenez MacGeneration sur Tipeee

MacGeneration a besoin de vous

Vous pouvez nous aider en vous abonnant ou en nous laissant un pourboire

Soutenez MacGeneration sur Tipeee

La Chine interdit à ses géants de la tech les puces Nvidia, et Huawei annonce prendre la relève

18/09/2025 à 21:45

• 32


Vendez votre ancien iPhone, vite fait bien fait

18/09/2025 à 19:16

• 0


Ubiquiti présente toute une gamme de NAS, dont un petit UNAS 2 qui rappelle fort la Time Capsule

18/09/2025 à 17:11

• 33


iOS 26 : notre guide des nouveautés est en vente !

18/09/2025 à 17:10

• 83


Tim Cook, invité privilégié à la visite d'État de Trump au Royaume-Uni

18/09/2025 à 16:32

• 24


Le dock USB4 de Razer et ses 14 prises en promo à 213 € au lieu de 250 €

18/09/2025 à 15:15

• 0


macOS Tahoe : pas de presse-papiers dans Spotlight ? N’oubliez pas de l’activer

18/09/2025 à 15:00

• 8


Promo : 15 % sur le Mac mini M4 bien équipé en 24/512 Go

18/09/2025 à 14:17

• 5


iPhone 17 : quel adaptateur secteur pour la recharge filaire plus rapide ?

18/09/2025 à 13:40

• 51


Encore du stock pour les iPhone 17 (Pro), l’Apple Watch Ultra 3 et les AirPods Pro 3

18/09/2025 à 12:48

• 110


Lorsque Photos corrompt des fichiers importés depuis une carte SD

18/09/2025 à 11:27

• 54


OLED, tactile, 5G : le futur MacBook Pro M6 s’annonce spectaculaire

18/09/2025 à 10:14

• 54


Le MacBook A18 Pro entrerait en production à la fin de l’année, pour un prix d’entrée de 599 dollars

17/09/2025 à 21:30

• 52


macOS 26 ne veut pas s’installer sur les Mac Studio M3 Ultra

17/09/2025 à 20:00

• 65


Apple ne devrait pas avoir la primeur sur la gravure en 1,6 nm de TSMC : Nvidia passerait avant

17/09/2025 à 18:30

• 18