Ouvrir le menu principal

MacGeneration

Recherche

L'Europe pourrait commander à ChatGPT de dévoiler ses sources

Stéphane Moussie

vendredi 28 avril 2023 à 18:00 • 76

Ailleurs

Quels sites a bien pu aspirer ChatGPT pour développer son intelligence ? OpenAI pourrait être amené à répondre à cette question importante une fois que l'AI Act, la régulation européenne sur l'intelligence artificielle, sera adoptée. Selon le Wall Street Journal, le Parlement européen prévoit d'obliger les créateurs d'IA génératives à révéler quels contenus couverts par le droit d'auteur ont servi à entraîner leurs technologies.

Une partie du contenu de la base de données C4 qui a servi à entraîner plusieurs grands modèles de langage. Infographie Washington Post.

Dans la version préliminaire du projet de régulation, il est question que les entreprises publient « un résumé suffisamment détaillé » des contenus exploités. Si elle venait être entérinée — il reste encore de multiples étapes à passer pour l'AI Act —, cette obligation pourrait donner une nouvelle arme aux ayants droit. Des médias et des artistes ont ouvert un front pour obtenir une compensation en contrepartie de l'utilisation de leurs œuvres par des modèles génératifs.

À défaut de savoir quelles bases de données exploitent ChatGPT, un secret bien gardé par OpenAI, le Washington Post a analysé la base C4 de Google qui est l'une des sources de LLaMA de Meta et d'autres grands modèles de langage. Dans cet instantané de 15 millions de sites web, la base de données de brevets de Google et Wikipédia sont les deux références les plus importantes (respectivement 0,46 % et 0,19 %). Les catégories les plus représentées sont le business/industrie (16 %), les nouvelles technologies (15 %), la presse (13 %), le divertissement (11 %) et les sciences (9 %). L'infographie du Washington Post vaut le coup d'œil et il y a même un moteur de recherche pour voir si votre site fait partie de l'ensemble.

Bien que la base C4 soit déjà énorme (environ 750 Go), les modèles de langage utilisent des quantités de données encore plus faramineuses. GPT-3, le moteur de ChatGPT, a été entrainé au départ avec 40 fois plus de données.

L

L'AI Act, ou comment l'Europe cherche à réguler l'intelligence artificielle

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

370 000 conversations en fuite chez xAI, dont certaines où Grok enfreint ses propres règles

20/08/2025 à 21:30

• 17


Test du Razer Thunderbolt 5 Dock : un pied dans le futur, un dans le passé

20/08/2025 à 21:00

• 3


Google dévoile quatre Pixel 10 aux améliorations nuancées

20/08/2025 à 20:37

• 44


D'importants correctifs de sécurité avec macOS 15.6.1 et iOS 18.6.2 [🆕 : iPadOS 17.7.10, macOS 14.7.8 et macOS 13.7.8 aussi proposés]

20/08/2025 à 19:48

• 15


Ces articles du Club iGen passent en accès libre : découvrez nos contenus premium

20/08/2025 à 17:01

• 2


Test du Corsair EX400U, un SSD USB4 parfait pour les Mac… et les iPhone

20/08/2025 à 17:00

• 19


inZOI : le concurrent aux Sims sous Unreal Engine 5 est désormais disponible pour les Mac M2

20/08/2025 à 16:52

• 7


Apple digère lentement Pixelmator

20/08/2025 à 15:26

• 27


Promo sur les bureaux assis-debout à 2 et 4 pieds de Flexispot

20/08/2025 à 13:30

• 11


Un clavier aux couleurs de Severance, pour ceux qui veulent raffiner des macrodonnées 🆕

20/08/2025 à 12:50

• 23


Acrobat Studio : les PDF passés à la moulinette IA par Adobe

20/08/2025 à 12:06

• 6


Une faille de sécurité corrigée chez Plex, mettez vite votre serveur à jour

20/08/2025 à 10:50

• 14


iOS 26 et macOS Tahoe accueillent l'utilisateur avec une tournée des nouveautés

20/08/2025 à 09:05

• 70


L'IA est là et elle vous aide à lire et à écrire

19/08/2025 à 20:30

• 31


Boulanger propose l’assurance AppleCare+ pour de nombreux produits Apple

19/08/2025 à 17:45

• 16


Mountain Duck 5 se fond dans le Finder et fait du versioning avec le FTP

19/08/2025 à 15:40

• 8