Ouvrir le menu principal

MacGeneration

Recherche

DeepSeek, la tempête boursière dans un verre de ChatGPT 4o

Anthony Nelzin-Santos

lundi 27 janvier 2025 à 15:45 • 208

Services

Vous n’aviez jamais entendu parler de DeepSeek ? Vous ne pourrez bientôt plus feindre l’ignorance. La petite entreprise chinoise, bras armé d’un fonds d’investissement spécialisé dans les applications de l’intelligence artificielle, fait soudainement les choux gras de la presse économique. Son nouveau modèle à raisonnement, écrit le Financial Times, « atteint des performances comparables aux modèles de ses rivaux américains OpenAI et Meta en affirmant utiliser bien moins de puces Nvidia. » Si cela semble trop beau pour être vrai, c’est parce que c’est faux.

Image DeepSeek.

Le tombereau d’articles mi-apologétiques mi-apocalyptiques, qui ont causé une petite tempête boursière, révèle une méconnaissance du marché chinois confinant au mépris. Ainsi lorsque Le Monde dit que DeepSeek a été fondée « par un obscur gérant de fonds de Hangzhou », il oublie fort opportunément que le gérant en question est considéré comme un expert des applications pratiques de l’intelligence artificielle en Chine.

Liang Wenfeng, c’est son nom, s’est intéressé aux usages du machine learning dans la finance quantitative au moment même où éclatait la crise financière de 2008. Après plusieurs années de recherches sous l’égide de l’université du Zhejiang, il a fondé avec deux camarades de classe le hedge fund High-Flyer, qui a rapidement créé des centaines de produits financiers pilotés par des robots de trading. Jusqu’à la fin de l’année 2020, les clients du fonds pouvaient espérer engranger entre 20 et 50 % de plus que la moyenne du marché.

C’est à cette époque que Liang Wenfeng s’est mis à acheter des centaines de cartes graphiques Nvidia, avant que les sanctions américaines n’entrent en vigueur, pour construire des supercalculateurs dédiés au deep learning. Après deux années de volatilité des marchés et malgré des rendements encore supérieurs à celui de l’indice CSI 300 des trois-cents plus grandes capitalisations boursières chinoises, High-Flyer s’est progressivement désengagé des produits financiers les plus risqués pour se tourner vers la recherche sur les intelligences artificielles générales.

En 2023, le fonds a ainsi créé DeepSeek avec l’ambition de mettre à profit un trésor de guerre unique en Chine, plus de dix-mille cartes Nvidia A100. Si son premier modèle n’a pas marqué les esprits, DeepSeek-V2 est entré dans le top 10 des modèles les plus performants en mai 2024 et DeepSeek-V3 ne cesse de provoquer des remous depuis sa présentation en décembre dernier. David Wade, chef de cabinet du secrétaire d’État John Kerry reconverti dans l’analyse stratégique, parle ainsi d’un « moment Spoutnik ».

La comparaison avec le lancement du satellite russe, qui avait été vécu comme un traumatisme par l’opinion américaine, n’est pas complètement usurpée. DeepSeek, qui recrute à tour de bras dans les universités chinoises, assure avoir dépensé moins de six-millions de dollars pour entrainer son dernier modèle, distribué sous licence MIT. Les entreprises américaines ont dépensé plus de 224 milliards de dollars dans les intelligences artificielles en 2024. OpenAI, Oracle et Softbank ont annoncé la semaine dernière qu’elles investiront plus de 500 milliards de dollars dans les quatre prochaines années.

Il n’en fallait pas plus pour provoquer une véritable panique boursière, qui a effacé 300 milliards de dollars de la capitalisation boursière de Nvidia et plongé toutes les valeurs plus ou moins liées au machine learning dans le rouge. D’aucuns pensent avoir assisté à l’éclatement de la bulle et critiquent un nouvel échec de la stratégie de l’endiguement. Avec ses 617 milliards de paramètres, DeepSeek-V3 produit des résultats comparables à ChatGPT-4o et Claude 3.5 Sonnet, fruits de milliards de dollars d’investissements.

Mais il y a un mais. Comme le New York Times, Bloomberg et tous ceux qui les ont repris la bouche en cœur, le Financial Times confond le grand modèle de langage DeepSeek-V3 avec le modèle à raisonnement DeepSeek-R1. À raison de deux dollars de l’heure par carte, chiffre avancé par l’entreprise chinoise qui n’est pas complètement farfelu, l’entrainement de DeepSeek-V3 sur un cluster de cartes Nvidia H800 pendant deux mois a peut-être couté moins de six-millions de dollars… si l’on ignore tous les investissements antérieurs.

DeepSeek a choisi l’approche du « mélange d’experts » pour diviser son modèle en 256 réseaux distincts, chacun spécialisé dans un sous-ensemble de données. Ce compromis entre la capacité des grands modèles fondamentaux et l’efficacité des petits modèles, notamment utilisé par l’entreprise française Mistral, permet précisément d’entrainer rapidement des modèles performants à moindre cout. Sauf que le modèle qui fait frémir la bourse et a propulsé l’application de DeepSeek en tête des boutiques d’application n’est pas DeepSeek-V3, mais plutôt DeepSeek-R1.

Comme le modèle OpenAI o1, DeepSeek-R1 tâche de simuler un raisonnement par tâtonnements, perdant en rapidité d’exécution ce qu’il gagne en finesse d’analyse. Outre ses deux principaux modèles, DeepSeek a aussi publié six modèles « distillés » plus modestes, comportant entre 1,5 et 70 milliards de paramètres, qui peuvent tourner sur un ordinateur portable. Le modèle chinois semble être à la hauteur des modèles américains dans la plupart des tests synthétiques, mais doit produire des réponses « conformes aux valeurs socialistes » et ne veut rien dire de l’indépendance de Taiwan ou du massacre de la place Tian’anmen.

Puisque DeepSeek-R1 est lui-même basé sur DeepSeek-V3, et que l’entreprise chinoise s’est bien gardée de parler du cout de son entrainement spécifique, le chiffre avancé par la plupart de nos confrères est absolument faux. Ce moment doit bien être marqué comme un tournant des intelligences artificielles génératives, parce qu’il confirme l’intérêt du « mélange d’experts » et relance la concurrence après quelques mois de relative atonie, mais il montre aussi que la bêtise humaine a de beaux jours devant elle…

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

macOS Tahoe change plus facilement la couleur des LED des manettes de PlayStation

10:45

• 1


GlassBar opacifie déjà la barre des menus de macOS Tahoe

09:04

• 10


Nouveautés d’iOS 26, macOS Tahoe, Liquid Glass… Tous nos articles pour tout savoir sur la WWDC 2025

06:00

• 11


Les leçons de la WWDC 2025, et ce qu’elle laisse entrevoir de la suite : la semaine Apple

15/06/2025 à 21:00

• 39


Aperçu de Spotlight dans macOS Tahoe : le lanceur idéal pour débuter ?

14/06/2025 à 11:00

• 35


Sortie de veille : une WWDC 2025 réussie ? Notre débrief d’iOS 26, Liquid Glass…

14/06/2025 à 08:00

• 11


SAV : Apple lance un programme de réparation pour des Mac mini M2 qui ne s'allument plus

14/06/2025 à 07:38

• 41


Avec Tahoe, les applications macOS pourront s’afficher sur le Vision Pro

13/06/2025 à 21:57

• 17


Les Youtubeurs de Linus Tech Tips voulaient se moquer des Mac pendant un mois, mais décident finalement de rester chez Apple

13/06/2025 à 18:56

• 103


watchOS 26 : découverte de la nouvelle interface de l'app Exercice

13/06/2025 à 18:27

• 5


Découvrez le tout nouveau UPDF 2.0 – l’éditeur PDF ultime pour Mac et iOS !

13/06/2025 à 15:18

• 0


macOS 26 peut faire le ménage dans les icônes de la barre des menus

13/06/2025 à 14:52

• 11


Avec EnergyKit, Apple veut charger votre watture au moment le plus opportun

13/06/2025 à 13:45

• 12


3DMark, une référence pour comparer les performances des GPU, débarque sur Mac

13/06/2025 à 13:02

• 31


Promo : des MacBook Air M3 16 Go à partir de 850 €

13/06/2025 à 12:50

• 13


Des nouvelles de Cyberpunk 2077 sur Mac, qui tourne visiblement bien sur un MacBook Pro M4 Max

13/06/2025 à 11:56

• 36