Ouvrir le menu principal

MacGeneration

Recherche

Une base de données pour l'IA, employée notamment par Apple, contient des vidéos YouTube

Pierre Dandumont

mardi 16 juillet 2024 à 21:30 • 7

Ailleurs

Une enquête vient de montrer que les géants de la high-tech — Nvidia, Salesforce mais aussi Apple1 et bien d'autres — utilisent une base de données pour l'IA qui a été entraînée sur des vidéos YouTube sans l'accord des créateurs.

La base de données ne se base pas sur les vidéos directement, mais sur les transcriptions de ces dernières, sous la forme de sous-titres dans différentes langues. La co-enquête entre Wired et Proof News montre que la base contient des textes issus de plus de 48 000 chaînes, pour 173 536 vidéos.

La base de données contient des dizaines de milliers de sous-titres de vidéos. Image YouTube.

On trouve dans la liste des vidéos éducatives issues du MIT ou d'Hardware mais aussi d'émissions comme The Late Show With Stephen Colbert, Last Week Tonight With John Oliver ou Jimmy Kimmel Live. De nombreux vidéastes connus sont aussi de la partie, de Marques Brownlee à PewDiePie ou MrBeast. Les données en question se trouvent dans la base de données The Pile, collectée par EleutherAI. Cet ensemble de données de près de 900 Go est open source et souvent employé pour entraîner des IA et les sous-titres ne représentent qu'une petite partie des données.

Selon Wired, ce n'est pas la seule base de données qui emploie des vidéos YouTube : Google emploierait les données de YouTube (qui lui appartient) et OpenAI aurait aussi utilisé YouTube pour entraîner Sora. Qui plus est, l'intégration de sous-titres dans la base de données sans autorisation peut poser des soucis : plus de 12 000 des vidéos employées ont été supprimées depuis l'intégration.

La base de données date de 2020. Image YouTube.

Dans tous les cas, cette histoire met encore en avant un problème récurrent avec l'entraînement des IA : la provenance des données. Imaginez, peut-être qu'un jour une IA nous proposera de nous abonner à Nord VPN… Pour ceux que ça intéresse, la base de données a été construite en 2020 (donc les transcriptions sont parfois anciennes) et Proof News propose un outil pour chercher dans les vidéos en question.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

TikTok écope de 530 millions d’euros d'amende en Union européenne

02/05/2025 à 21:45

• 6


Apple aurait intégré l’IA Claude dans une version interne de Xcode, enterrant un peu plus Swift Assist

02/05/2025 à 20:45

• 12


Enfin une solution simple pour télécharger vos vidéos et playlists préférées sur YouTube

02/05/2025 à 17:35

• 0


« Le pape François indifférent au décès de Zidane » : pourquoi Apple Intelligence résume si mal les titres d’articles

02/05/2025 à 17:35

• 43


French Days : le MacBook Air M2 glisse à 850 €

02/05/2025 à 15:56

• 1


Promos sur des batteries externes de grosse capacité pour iPhone et MacBook

02/05/2025 à 15:50

• 0


Amazon : 25 € de réduction à partir de 75 € d'achat

02/05/2025 à 15:17

• 10


MacBook Air M4 : la chute des prix se poursuit encore sur ce nouvel incontournable 🆕

02/05/2025 à 14:32

• 58


Mira Pro Color : le bel écran E Ink 25 pouces de Boox passe à la couleur

02/05/2025 à 13:15

• 10


MacUpdater cherche un acheteur pour rester à jour

02/05/2025 à 12:30

• 13


Selon Tim Cook, Apple « progresse » sur le développement du nouveau Siri

02/05/2025 à 10:58

• 42


Cotypist suggère du texte soufflé par l’IA dans toutes les apps sur le Mac

02/05/2025 à 10:45

• 3


iOS 19 pourrait offrir plusieurs nouveautés pour Stage Manager et les styles photographiques

02/05/2025 à 09:15

• 19


Profitez de Microsoft Office à petit prix pendant les French Days 2025 📍

01/05/2025 à 23:20

• 0


Apple : des résultats solides, mais la Chine et les droits de douane inquiètent

01/05/2025 à 22:56

• 20


La direction de Tesla aurait cherché un remplaçant pour Musk, suite aux difficultés de l’entreprise

01/05/2025 à 21:00

• 86