IA : Google et OpenAI risquent de rapidement se faire dépasser par la communauté open source, estime un chercheur

Félix Cattafesta |

Si Google voit en OpenAI son plus grand adversaire dans la course à l'IA, la vraie menace pour l'entreprise pourrait venir de la communauté open source. Une note interne d'un chercheur de Google rappelle que les deux gros poissons du domaine ne disposent pas de la « formule magique » pour les IA génératives. Et que, comme pour les images, les alternatives open source risquent de rapidement faire de l'ombre aux services commerciaux.

LlamaChat, une application open source permettant de dialoguer avec un modèle de langage stocké en local sur son Mac.

« Nous ne sommes pas en mesure de gagner cette course à l'armement, pas plus qu'OpenAI », écrit le chercheur. Pendant que les grosses boites se tirent la bourre et avancent dans l'ombre, la communauté open source progresse à grands pas. Les modèles de langages (le « moteur » permettant de faire tourner un service comme ChatGPT) ne sont plus réservés à de gros serveurs ou à une poignée de passionnés fortunés empilant les 4090ti dans leurs garages. Il est désormais possible d'utiliser un modèle de langage localement sur un Pixel 6 à une vitesse plus que correcte, ou d'installer son ChatGPT local sur son Mac M1 en une petite demi-heure.

LLaMA, Vicuna, Alpaca : comment faire tourner un modèle de langage sur son Mac ?

LLaMA, Vicuna, Alpaca : comment faire tourner un modèle de langage sur son Mac ?

Les travaux open source ont véritablement commencé avec la fuite du modèle LLaMA de Meta, censé rester réservé à la recherche, mais ayant rapidement été partagé sur des forums en torrent. S'il s'agissait d'une base brute, les bidouilleurs ont réussi à l'affiner et à le faire tourner sur des machines d'entrée de gamme en quelques jours. Les plus petites entreprises progressent également : on a récemment vu arriver Dolly 2 ou le StableLM des équipes derrière le générateur d'images Stable Diffusion. Ces deux modèles sont open source et complètement indépendants étant donné qu'ils ne se basent pas sur les travaux de Meta.

Si nos modèles conservent un léger avantage en termes de qualité, l'écart se réduit étonnamment vite. Les modèles open source sont plus rapides, plus personnalisables, plus privés et plus performants. Ils font des choses avec 100 $ et des modèles à 13 milliards de paramètres que nous avons du mal à faire avec 10 millions de dollars et 540 milliards de paramètres. Et ils le font en quelques semaines, pas en quelques mois.

Qualité des réponses de 3 modèles open source face à ChatGPT et Bard. L'estimation a été réalisée par GPT-4. Source.

Les modèles open source sont loin d'être des versions au rabais par rapport à ce que proposent les grandes entreprises. Vicuna (un dérivé de LLaMA) promet des résultats équivalents à 90 % à ceux de ChatGPT. L'université de Berkeley a récemment lancé Koala, un modèle de dialogue entièrement formé à partir de données librement accessibles. Plus de 50 % des utilisateurs préfèrent Koala ou n'ont pas de préférence face à ChatGPT.

Les performances s'améliorant donc à vitesse grand V, et GPT-4 ne devrait pas rester sur le podium des IA les plus compétentes très longtemps. En pleine effervescence, la communauté open source découvre chaque semaine des nouveautés techniques majeures à côté desquelles étaient passées OpenAI et Google.

De nombreuses idées nouvelles émanent de personnes ordinaires. La barrière à l'entrée pour la formation et l'expérimentation [de modèles de langage] est passée de la capacité totale d'un grand organisme de recherche à une personne, une soirée et un ordinateur portable puissant.

L'arrivée d'une alternative simple et open source est un vrai risque pour les deux entreprises. « Les gens ne paieront pas pour un modèle restreint alors que des alternatives gratuites et non réglementées sont comparables en termes de qualité », s'alarme le chercheur. Dolly 2.0 est libre et utilisable dans le cadre d'un usage commercial, un argument qui devrait séduire de nombreux potentiels clients.

Pour le chercheur, Google ne devrait pas essayer de faire mieux que la communauté open source mais plutôt travailler avec elle, quitte à ouvrir la porte sur ce qui se passe en cuisine. « Plus nous contrôlons étroitement nos modèles, plus nous rendons attrayantes les alternatives ouvertes. », écrit-il.

L'arrivée de formules open source rebat les cartes au niveau de la prudence vis-à-vis de la technologie. Si OpenAI et Google affirment tout deux vouloir avancer sagement pour éviter les abus, il est déjà trop tard : les modèles open source ne sont pas censurés et livrés sans garde-fous. Google doit donc repenser la manière dont elle se positionne sur le créneau et la valeur ajoutée de ses services.

Bureaux de Google. Image : Google.

La situation n'est pas sans rappeler ce qui s'est passé pour la génération d'images. Si le DALL-E d'OpenAI a impressionné les foules, l'alternative open source Stable Diffusion a rapidement pris le devant de la scène. Le service d'Open AI est désormais beaucoup moins attractif maintenant qu'il existe un concurrent gratuit et plus personnalisable. Son aspect libre lui a permis de s'enrichir de nombreuses intégrations et nouveautés qui font défaut au service privé.

DALL-E, Stable Diffusion (2/2) : des IA qui soulèvent de nombreuses questions

DALL-E, Stable Diffusion (2/2) : des IA qui soulèvent de nombreuses questions

Le chercheur estime que Meta est le grand gagnant de la fuite de son modèle. Vu que LLaMA est à la base de nombreux travaux open source, rien ne l'empêche de les incorporer directement dans ses produits. Il plaide pour que Google cherche à s'imposer comme un leader de l'open source afin de mieux contrôler l'écosystème, à la manière de ce qu'elle a fait pour Chrome et Android. Tout cela pourrait passer par des intégrations visant à collaborer avec les acteurs open source.

Cela impliquera probablement de prendre des mesures désagréables […] Cela implique nécessairement de renoncer à un certain contrôle sur nos modèles. Mais ce compromis est inévitable. Nous ne pouvons pas espérer à la fois stimuler l'innovation et la contrôler.

Pour le chercheur, la question n'est pas de savoir ce que va faire OpenAI, qui commet les mêmes erreurs que Google en gardant tout sous clef. « Les alternatives open source peuvent et finiront par éclipser, à moins qu'ils ne changent de position. Sur ce point au moins, nous pouvons faire le premier pas. ».

Source
Source image accroche : Wikipédia (The Pancake of Heaven!)
avatar mimolette51 | 

Et qui va payer les centaines de GPU necessaire entrainer ce genre de modéle en faisant des mises à jour toutes les semaines?

avatar jackhal | 

Toi, t'as lu que le titre... 🙄

avatar mimolette51 | 

Toi tu fais de la divination. C'est un choix.

avatar jackhal | 

Ou alors tu ne l'as pas compris. C'est aussi une possibilité.
Edit : il est question de diminution drastique de la puissance de calcul, qui ne nécessite même plus de GPU.
Par contre, l'article ne parle pas de ce passage :
https://www.semianalysis.com/i/119223672/retraining-models-from-scratch-is-the-hard-path
Plus besoin de refaire tout l'entrainement pour une mise à jour.

avatar v1nce29 | 

Diminution de la puissance de calcul pour l'usage. Il faut toujours un coûteux entraînement préalable du modèle.

avatar jackhal | 

Lis le document original, surtout ce qui concerne LoRA :
https://www.semianalysis.com/i/119223672/lora-is-an-incredibly-powerful-technique-we-should-probably-be-paying-more-attention-to

Moi ce que je comprends, c'est qu'il y a deux aspects :
- arriver à faire tourner des LLM sur du matériel moins puissant
- et surtout (c'est mieux expliqué ici : https://arxiv.org/abs/2106.09685), qu'on change d'approche en ayant un modèle de base figé qui est très lourd à générer, mais dont on peut changer bien plus simplement les réglages pour améliorer ou spécialiser les réponses. Et ces modifs peuvent s'empiler, et être partagées. Ça permet des itérations très rapides, puisque ça ne demande plus que quelques heures sur du matos qui reste accessible.

Le deuxième aspect ne peut exister que parce qu'il y a le premier, mais c'est le second qui a fait nettement augmenter la qualité des réponses entre LLaMA, Alpaca et Vicuna en si peu de temps.
Il n'y a plus besoin de centaines de GPU pour redémarrer l'entrainement d'un énorme modèle en repartant de zéro. Appliquer les modifs et voir le résultat se fait sur une machine accessible, et c'est une question d'heures.

Dans un domaine différent, je trouve qu'il y a des similarités avec ce qui différencie les encyclopédies traditionnelles papier de Wikipédia. D'un coté, il y a un travail dont la base est académique avec des publications espacées, et de l'autre une encyclopédie où chacun peut contribuer, publier, se faire corriger en peu de temps. La masse du nombre de contributeurs de Wikipédia fait que c'est devenu bien plus que les encyclopédies « traditionnelles ». Il y a des articles qui couvrent bien plus de sujets, y compris des choses pour lesquelles les encyclopédies n'auraient jamais daigné ou pu se pencher (lister tous les épisodes de toutes les séries un peu connues, les personnes publiques avec un peu de notoriété, ou même tous les smartphones un peu connus...)

Et maintenant, presque n'importe qui peut (avec encore pas mal de motivation) contribuer à trouver les meilleurs réglages pour améliorer la qualité des traitements d'une IA dans le domaine qu'il connait.

avatar TuringTone | 

L'avantage principal du Logiciel Libre, c'est qu'il est OpenBar, ouvert à toutes les initiatives,
avec l'opportunité d'explorer toutes les voies possibles jusqu'à l'émergence d'une gouroutisation
sectaire d'un mini-chefaillon à la con et la bifurcation ou la biforkation vers de plus verts pâturages....

avatar joneskind | 

@mimolette51

Visiblement ça n’a pas l’air de poser de problème aux équipes qui développent les solutions libres.

Par ailleurs, quand on a moins de moyens on cherche des solutions ailleurs. Et c’est vraisemblablement comme ça que les petits acteurs du libre ont tiré leur épingle du jeu.

avatar iPop | 

@mimolette51

Cela pourrait être Peer-to-peer, là on est en plein Hyperion.

avatar DP-Britto | 

@mimolette51

Pour le reste, ils font comment ? Le libre n'a pas commencé avec l'IA.

avatar Mac1978 | 

Vous allez voir que Google, Meta, OpenAI vont demander la régulation légale des développements de l’IA pour « protéger » la population, alors que ce ne sera que pour créer une barrière à l’entrée sur le marché suffisamment haute pour empêcher la concurrence.

avatar Giloup92 | 

Je pense plutôt que la future législation européenne va tomber à l’eau.

avatar lmouillart | 

Je pense qu'ils vont brosser les créateurs : textes, films, musique, images, dessins,... dans le sens du poil en les rémunérant et balkaniser les nouveaux venus en les pointant comme responsable de la précarisation des artistes, créateurs manuels de contenu (qui sert aux modèles) et comme voleurs de leur travail.

avatar MGA | 

93% de pas fiable, ça fait combien ?

avatar marc_os | 
avatar dodomu | 

@marc_os

J’imagine que c’est la contraction de « billion », soit « milliard » en bon François 😁

avatar TheJoanius | 

@marc_os

C’est des milliards, de l’anglais « billion » ;)

avatar marc_os | 

@ TheJoanius

> C’est des milliards, de l’anglais « billion »

Quand on écrit en français, je suggèrerais à la rédaction d'utiliser des "unités" en langue française, surtout comme dans ce cas de figure où la majorité des gens ne sait pas instinctivement ce que représente un "billion".

avatar Félix Cattafesta | 
J'ai repris, merci.
avatar claude72 | 

@ marc_os
"Quand on écrit en français, je suggèrerais à la rédaction d'utiliser des "unités" en langue française..."
Ce n'est pas un problème d'unité, mais une question d'échelle :
• les USA utilisent l'échelle courte, dans laquelle 1 billion = 1000 millions = 10^9 = 9 zéros, parceque le "bi" veut dire qu'il y a deux groupes de 3 zéros en plus de mille,
• alors que la France utilise l'échelle longue dans laquelle 1 billion = 1 million de million = 10^12 = 12 zéros, parceque le "bi" veut dire "2 fois le nombre de zéros du million".

On retrouve le même principe avec le trillion :
• trillion US = 12 zéros = 3 groupes de 3 zéros en plus de 1000,
• trillion français = 18 zéros = 3 fois le nombre de zéros du million.

Et donc :
• 1 billion US = 1 milliard français
• 1 trillion US = 1 billion français

avatar Derw | 

@claude72

👍

avatar cosmoboy34 | 

@claude72

Merci pour ce détail très intéressant qui m’a toujours interrogé 😁

avatar marc_os | 

@ claude72

> @ marc_os
>> "Quand on écrit en français, je suggèrerais à la rédaction d'utiliser des "unités" en langue française..."
> Ce n'est pas un problème d'unité, mais une question d'échelle :

Visiblement vous n'avez pas vu les guillemets que j'ai mis à "unités".
D'autres que vous ont bien compris ce que je disais.

avatar TuringTone | 

Le plus simple c'est d'utiliser les vrais multiples du Système International S.I et non les pseudo-unités de la presse "people" qui bave devant la prétendue "I.A":
10^3= 1 millier= 1 kilo= 1 k
10^6= 1 million= 1 Mega= 1 M
10^9= 1 milliard= 1 Giga= 1 G
10^12= 1 millier de milliard= 1 Téra= 1 T
10^15=1 million de milliard= 1 Péta= 1 P

avatar 406 | 

Mon gamin vient de l intégrer sur un site de test aujourd’hui et lui a demandé de répondre en se faisant passer pour Steve Jobs =)) mais il refuse de dire quand sortira l iPhone 15

avatar DG33 | 

@406

😀

avatar DG33 | 

@406

Je dirais fin septembre, au doigt mouillé ☺️

avatar TuringTone | 

L'avantage principal du Logiciel Libre, c'est qu'il est OpenBar, ouvert à toutes les initiatives,
avec l'opportunité d'explorer toutes les voies possibles jusqu'à l'émergence d'une gouroutisation
sectaire d'un mini-chefaillon à la con et la bifurcation ou la biforkation vers de plus verts pâturages....

avatar Mac13 | 

"OpenAI" n'est pas si open ?! 🤨

avatar ipfix8 (non vérifié) | 

je crois qu’entre chatgpt 3 et 4 , il y a eu une fermeture du code pour raison économique

avatar Lemmings | 

Dans votre comparaison Dall-E vs Stable Diffusion, vous oubliez le véritable phénomène du secteur actuellement : Midjourney !
La comparaison montre un tout autre intérêt : https://trends.google.com/trends/explore?date=2022-08-01%202023-04-10&q=Stable%20Diffusion,Dall-E,Midjourney&hl=en

avatar ipfix8 (non vérifié) | 

Question : open source = bénévolat ?

avatar v1nce29 | 

@ipfix8

Non. Open source signifie que les sources sont disponibles mais pas forcément que tu peux les utiliser gratuitement. Tu peux devoir payer une licence si tu utilises le logiciel de manière commerciale (ou à partir de n postes simultanément). Assez souvent tu peux l'utiliser gratuitement, le modèle économique consistant alors à vendre du support ou des services (hébergement). Enfin il peut s'agir de pur altruisme, l'auteur n'attendant pas (forcément) de rémunération. La 'récompense' pouvant se trouver dans la notoriété conférée par le projet ou par le fait de bénéficier de l'assistance de la communauté pour rechercher des bugs ou développer de nouvelles fonctionnalités.

CONNEXION UTILISATEUR