DeepSeek, la tempête boursière dans un verre de ChatGPT 4o

Anthony Nelzin-Santos

lundi 27 janvier 2025 à 15:45 • 208

Vous n’aviez jamais entendu parler de DeepSeek ? Vous ne pourrez bientôt plus feindre l’ignorance. La petite entreprise chinoise, bras armé d’un fonds d’investissement spécialisé dans les applications de l’intelligence artificielle, fait soudainement les choux gras de la presse économique. Son nouveau modèle à raisonnement, écrit le Financial Times, « atteint des performances comparables aux modèles de ses rivaux américains OpenAI et Meta en affirmant utiliser bien moins de puces Nvidia. » Si cela semble trop beau pour être vrai, c’est parce que c’est faux.

Le tombereau d’articles mi-apologétiques mi-apocalyptiques, qui ont causé une petite tempête boursière, révèle une méconnaissance du marché chinois confinant au mépris. Ainsi lorsque Le Monde dit que DeepSeek a été fondée « par un obscur gérant de fonds de Hangzhou », il oublie fort opportunément que le gérant en question est considéré comme un expert des applications pratiques de l’intelligence artificielle en Chine.

Liang Wenfeng, c’est son nom, s’est intéressé aux usages du machine learning dans la finance quantitative au moment même où éclatait la crise financière de 2008. Après plusieurs années de recherches sous l’égide de l’université du Zhejiang, il a fondé avec deux camarades de classe le hedge fund High-Flyer, qui a rapidement créé des centaines de produits financiers pilotés par des robots de trading. Jusqu’à la fin de l’année 2020, les clients du fonds pouvaient espérer engranger entre 20 et 50 % de plus que la moyenne du marché.

C’est à cette époque que Liang Wenfeng s’est mis à acheter des centaines de cartes graphiques Nvidia, avant que les sanctions américaines n’entrent en vigueur, pour construire des supercalculateurs dédiés au deep learning. Après deux années de volatilité des marchés et malgré des rendements encore supérieurs à celui de l’indice CSI 300 des trois-cents plus grandes capitalisations boursières chinoises, High-Flyer s’est progressivement désengagé des produits financiers les plus risqués pour se tourner vers la recherche sur les intelligences artificielles générales.

En 2023, le fonds a ainsi créé DeepSeek avec l’ambition de mettre à profit un trésor de guerre unique en Chine, plus de dix-mille cartes Nvidia A100. Si son premier modèle n’a pas marqué les esprits, DeepSeek-V2 est entré dans le top 10 des modèles les plus performants en mai 2024 et DeepSeek-V3 ne cesse de provoquer des remous depuis sa présentation en décembre dernier. David Wade, chef de cabinet du secrétaire d’État John Kerry reconverti dans l’analyse stratégique, parle ainsi d’un « moment Spoutnik ».

La comparaison avec le lancement du satellite russe, qui avait été vécu comme un traumatisme par l’opinion américaine, n’est pas complètement usurpée. DeepSeek, qui recrute à tour de bras dans les universités chinoises, assure avoir dépensé moins de six-millions de dollars pour entrainer son dernier modèle, distribué sous licence MIT. Les entreprises américaines ont dépensé plus de 224 milliards de dollars dans les intelligences artificielles en 2024. OpenAI, Oracle et Softbank ont annoncé la semaine dernière qu’elles investiront plus de 500 milliards de dollars dans les quatre prochaines années.

Il n’en fallait pas plus pour provoquer une véritable panique boursière, qui a effacé 300 milliards de dollars de la capitalisation boursière de Nvidia et plongé toutes les valeurs plus ou moins liées au machine learning dans le rouge. D’aucuns pensent avoir assisté à l’éclatement de la bulle et critiquent un nouvel échec de la stratégie de l’endiguement. Avec ses 617 milliards de paramètres, DeepSeek-V3 produit des résultats comparables à ChatGPT-4o et Claude 3.5 Sonnet, fruits de milliards de dollars d’investissements.

Mais il y a un mais. Comme le New York Times, Bloomberg et tous ceux qui les ont repris la bouche en cœur, le Financial Times confond le grand modèle de langage DeepSeek-V3 avec le modèle à raisonnement DeepSeek-R1. À raison de deux dollars de l’heure par carte, chiffre avancé par l’entreprise chinoise qui n’est pas complètement farfelu, l’entrainement de DeepSeek-V3 sur un cluster de cartes Nvidia H800 pendant deux mois a peut-être couté moins de six-millions de dollars… si l’on ignore tous les investissements antérieurs.

DeepSeek a choisi l’approche du « mélange d’experts » pour diviser son modèle en 256 réseaux distincts, chacun spécialisé dans un sous-ensemble de données. Ce compromis entre la capacité des grands modèles fondamentaux et l’efficacité des petits modèles, notamment utilisé par l’entreprise française Mistral, permet précisément d’entrainer rapidement des modèles performants à moindre cout. Sauf que le modèle qui fait frémir la bourse et a propulsé l’application de DeepSeek en tête des boutiques d’application n’est pas DeepSeek-V3, mais plutôt DeepSeek-R1.

Comme le modèle OpenAI o1, DeepSeek-R1 tâche de simuler un raisonnement par tâtonnements, perdant en rapidité d’exécution ce qu’il gagne en finesse d’analyse. Outre ses deux principaux modèles, DeepSeek a aussi publié six modèles « distillés » plus modestes, comportant entre 1,5 et 70 milliards de paramètres, qui peuvent tourner sur un ordinateur portable. Le modèle chinois semble être à la hauteur des modèles américains dans la plupart des tests synthétiques, mais doit produire des réponses « conformes aux valeurs socialistes » et ne veut rien dire de l’indépendance de Taiwan ou du massacre de la place Tian’anmen.

Puisque DeepSeek-R1 est lui-même basé sur DeepSeek-V3, et que l’entreprise chinoise s’est bien gardée de parler du cout de son entrainement spécifique, le chiffre avancé par la plupart de nos confrères est absolument faux. Ce moment doit bien être marqué comme un tournant des intelligences artificielles génératives, parce qu’il confirme l’intérêt du « mélange d’experts » et relance la concurrence après quelques mois de relative atonie, mais il montre aussi que la bêtise humaine a de beaux jours devant elle…

Soutenez MacGeneration sur Tipeee

MacGeneration

iGeneration

WatchGeneration

Services

Rejoignez le Club iGen

DeepSeek, la tempête boursière dans un verre de ChatGPT 4o

MacGeneration a besoin de vous

Actualités

Le MacBook Pro M4 1 To à 1699 € et 120 € de bons d'achat ! (et d'autres offres Apple)

Gardez les mains bien au chaud avec ces gants imperméables chauffants

Apple, bientôt 50 ans… Partagez vos souvenirs !

Avec le code XMAS40, le MacBook Air M1 16 Go passe à 589 € !

Sortie de veille : l’Apple Watch bientôt libérée par Free Mobile ?

Santé : le potentiel inexploité de l'Apple Watch se dévoile grâce à l'IA

Sécurité : Apple comble deux failles « zero-day » avec iOS 26.2 et macOS 26.2

On a testé la traduction en direct des AirPods : vraiment utile pour franchir la barrière de la langue ?

Une build interne d’iOS 26 dévoile les plans d’Apple jusqu’à iOS 27

iOS 26.2 disponible en version finale : toutes les nouveautés de cette mise à jour pas si anodine

watchOS 26.2 est disponible avec un score de sommeil qui n’est plus dans la lune

macOS 26.2 disponible pour tous : découvrez les nouveautés lumineuses de cette mise à jour

iPhone, Mac : Le VPN premium à petit prix que tout le monde s'arrache avant Noël (parfait si vous avez raté le Black Friday) 📍

Orange, Bouygues Telecom et SFR s'allient pour éviter les débranchements sauvages de fibres optiques

Fin de l’exception douanière en Europe : les petits colis taxés 3 € dès juillet 2026

Promos : les caméras de surveillance reviennent à leur prix du Black Friday

Image du moment

Tests

Test de l'écran 5K de Japannext : pas de fioritures et un prix intéressant

Test d'un adaptateur USB-C vers Ethernet à 10 Gb/s : des compromis pour un petit prix

Test du Philips Brilliance 27E3U7903 : un bon moniteur 5K à la webcam décevante

Test du SSD externe Transcend ESD420 : il colle parfaitement à l’iPhone, un peu moins au Mac

Test du MacBook Pro M5 : ennuyeux mais terriblement efficace

Test des S3XY Buttons pour les Tesla : 260 € pour en économiser 3 800