Ouvrir le menu principal

MacGeneration

Recherche

Une base de données pour l'IA, employée notamment par Apple, contient des vidéos YouTube

Pierre Dandumont

mardi 16 juillet 2024 à 21:30 • 7

Ailleurs

Une enquête vient de montrer que les géants de la high-tech — Nvidia, Salesforce mais aussi Apple1 et bien d'autres — utilisent une base de données pour l'IA qui a été entraînée sur des vidéos YouTube sans l'accord des créateurs.

La base de données ne se base pas sur les vidéos directement, mais sur les transcriptions de ces dernières, sous la forme de sous-titres dans différentes langues. La co-enquête entre Wired et Proof News montre que la base contient des textes issus de plus de 48 000 chaînes, pour 173 536 vidéos.

La base de données contient des dizaines de milliers de sous-titres de vidéos. Image YouTube.

On trouve dans la liste des vidéos éducatives issues du MIT ou d'Hardware mais aussi d'émissions comme The Late Show With Stephen Colbert, Last Week Tonight With John Oliver ou Jimmy Kimmel Live. De nombreux vidéastes connus sont aussi de la partie, de Marques Brownlee à PewDiePie ou MrBeast. Les données en question se trouvent dans la base de données The Pile, collectée par EleutherAI. Cet ensemble de données de près de 900 Go est open source et souvent employé pour entraîner des IA et les sous-titres ne représentent qu'une petite partie des données.

Selon Wired, ce n'est pas la seule base de données qui emploie des vidéos YouTube : Google emploierait les données de YouTube (qui lui appartient) et OpenAI aurait aussi utilisé YouTube pour entraîner Sora. Qui plus est, l'intégration de sous-titres dans la base de données sans autorisation peut poser des soucis : plus de 12 000 des vidéos employées ont été supprimées depuis l'intégration.

La base de données date de 2020. Image YouTube.

Dans tous les cas, cette histoire met encore en avant un problème récurrent avec l'entraînement des IA : la provenance des données. Imaginez, peut-être qu'un jour une IA nous proposera de nous abonner à Nord VPN… Pour ceux que ça intéresse, la base de données a été construite en 2020 (donc les transcriptions sont parfois anciennes) et Proof News propose un outil pour chercher dans les vidéos en question.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

MacBook Air M4 : la chute des prix se poursuit encore sur ce nouvel incontournable 🆕

07:00

• 109


Nintendo n’hésite pas à briquer toute Switch 2 utilisée avec une cartouche modifiée

06:29

• 30


iPhone pliable : la production commencerait d’ici la fin de l’année, pour une sortie en 2026

06:29

• 22


Donald Trump affirme qu’Apple va acheter un nombre conséquent de Trump Card

18/06/2025 à 21:15

• 25


LG commercialise le premier téléviseur transparent utilisable

18/06/2025 à 20:15

• 12


Kernel Panic : on discute avec Jean-Baptiste Kempf, créateur de VLC

18/06/2025 à 19:00

• 18


YouTube a trouvé un nouveau moyen d’embêter les utilisateurs de bloqueurs de pubs

18/06/2025 à 14:58

• 69


Promo : le MacBook Air 15 pouces 24/512 Go à seulement 1627 € (-19 %)

18/06/2025 à 14:00

• 3


Netflix va diffuser les séries, émissions et rencontres sportives de TF1

18/06/2025 à 12:24

• 47


macOS 26 marque la fin du curseur en forme de gant de Mickey

18/06/2025 à 10:49

• 45


macOS 26 concurrence Whisper avec un modèle de transcription local et très rapide

18/06/2025 à 09:40

• 33


Le puzzle-game Blue Prince sera disponible sur Mac d’ici la fin de l’année

18/06/2025 à 09:29

• 10


Promos : l'iPhone 16e à 528 € et l'iPad A16 (2025) à 330 €

18/06/2025 à 08:50

• 11


Google se moque du retard d’Apple avec iOS 26

18/06/2025 à 08:07

• 37


Nouveautés d’iOS 26, macOS Tahoe, Liquid Glass… Tous nos articles pour tout savoir sur la WWDC 2025

18/06/2025 à 00:00

• 13


iOS 26 : prise en main du nouvel Appareil photo de l’iPhone

17/06/2025 à 21:07

• 11