LLaMA : l'alternative à GPT-3 de Meta peut tourner en local sur un MacBook Air M1

Félix Cattafesta | 14/03/2023 à 12:45

Les choses vont vite dans le monde de l'IA. Le mois dernier, Meta présentait un modèle de langage surpuissant, plus léger et efficace que le GPT-3 d'OpenAI mais réservé aux universitaires. La semaine dernière, ce modèle baptisé LLaMA fuitait sur 4chan et était publié dans la foulée sur GitHub. Aujourd'hui, ArsTechnica rapporte que le modèle fonctionne en local sur un MacBook, mais aussi sur Windows et a même été montré tournant sur un Pixel 6 ou un Raspberry Pi.

Le modèle LLaMA via llama.cpp. Image : Github.

Le modèle ayant fuité de chez Meta n'est qu'une base : il ne s'agit pas d'une app que l'on peut lancer et utiliser dans la foulée, mais d'un modèle de langage brut demandant pas mal de puissance et n'ayant pas été affiné pour les conversations. Il est disponible en plusieurs tailles, avec une déclinaison légère mais promettant d'être au même niveau que le GPT-3 d'OpenAI. Le modèle de Meta le plus petit a l'avantage de ne pas nécessiter de grosses cartes graphiques de serveurs, comme c'est le cas pour GPT-3.

Depuis sa mise en ligne, de nombreux bidouilleurs se sont mis en tête de faire tourner LLaMA sur des ordinateurs personnels. Le travail avance assez vite, car un développeur a déjà partagé sur Github un projet permettant à n'importe qui avec de bonnes connaissances techniques de discuter avec LLaMA sur Mac.

ArsTechnica a mis les mains dans le cambouis pour le lancer sur un MacBook Air M1 et explique que le modèle génère du texte à une vitesse raisonnable. Si les réponses sont satisfaisantes, elles ne sont pas encore au niveau de ChatGPT : cela vient peut-être du procédé utilisé pour faire tourner l'imposant modèle sur du matériel d'entrée de gamme, qui pourra être affiné par la suite. Démarrer LLaMA sur un Mac demande pas mal de connaissances techniques, et un guide à été mis en ligne pour les curieux.

Faire tourner un modèle textuel en local est le rêve de certains internautes qui se sentent limités par les filtres de ChatGPT ou de Bing. Avoir un modèle tournant directement depuis sa machine offrira plus de personnalisation et évitera certains soucis, comme les frais d'API ou une absence de réponse suite à des serveurs surchargés. Au rythme où les choses avancent, on peut imaginer qu'il sera prochainement possible de jouer avec LLaMa via une app pour macOS.

Pour aller plus loin :

Le widget Apple News ne reviendrait pas de sitôt

Mon Petit Placement : l’investissement accessible à tous 📍

Winamp passe en open source… avant de trépasser ?

MV-HEVC : une nouvelle perspective pour la vidéo 3D

PiRMeZuR | 14/03/2023 à 12:56

Ce n'est pas tout à fait une app mais il y a déjà des outils clé en main qui permettent de télécharger les modèles et de les faire tourner.
https://cocktailpeanut.github.io/dalai/

Mike Mac | 14/03/2023 à 14:17

Dit LLaMA : est-ce bien grâce à l’IA queYetAnotherGit, blablateur pétri de technologie arrogante et au ton précieux, s’est transformé en Cécilia, blablateuse plus accessible aux ménagères de moins de 50 ans ?

Dit LLaMA : auras-tu le pouvoir de rendre les fils de commentaires plus lisibles en limitant les interventions lecteur à 3 maximum ou compresser ceux qui dépassent 3 pages et les rendre ainsi plus lisibles ?

Dit LLaMA : Est-ce que MacGe pourra t'utiliser pour synthétiser en français les news anglo-saxonnes et libérer la rédaction qui ne se mobiliserait plus que sur les articles de fond ?

Tant de questions et un champ inouï de possibilités, même ici dans ce microcosme...

Max101 | 14/03/2023 à 13:01

Excellent (humour) ! :D

bouh | 14/03/2023 à 13:55

@Mike Mac
Je pensais que c’était suite à une émancipation d’un Romain ! 😅

Brice21 | 14/03/2023 à 22:07

@Mike Mac

+1000

powergeek | 14/03/2023 à 13:06

Mais elle a été entraînée sur quelle base de données ? Je rêve de ça pour l'entraîner sur l'ensemble des données stockées sur mes machines, mes serveurs, mes emails 🙏

vincentn | 14/03/2023 à 14:05

@powergeek

Le modèle a été entraîné sur des données issues de:

CommonCrawl, C4, Wikipedia, GitHub, Projet Gutenberg, ArXiv, Stack exchange, Books3.

powergeek | 14/03/2023 à 14:13

@vincentn

Tu parles de chatGPT ou de Llama ? Merci 👍

vincentn | 14/03/2023 à 14:14

@powergeek

Llama.

oomu | 14/03/2023 à 14:06

oui ça serait rigolo d'avoir un assistant textuel, qu'on entraine à parler comme Conan.

"je devrais faire des pattes ou une omelette ? "Brise ces oeufs sur la poêle! Par CROM !"

vince29 | 14/03/2023 à 16:48

des pattes ? de poulet ?

cecile_aelita | 15/03/2023 à 08:25

@vince29

https://tenor.com/boAX5.gif

d9beuD | 14/03/2023 à 16:06

J'ai utilisé avec succès ce fork de Facebook LLaMA : https://github.com/remixer-dec/llama-mps
Il permet de faire tourner un modèle sur le GPU des puces M1/M2 au lieu du CPU seulement. Idéal pour ceux qui ont pas mal de cœurs GPU (Mx Pro/Max).