Anthropic a annoncé la sortie de Claude Opus 4.8, la dernière mise à jour de son modèle phare destinée au grand public. Il prend la relève d’Opus 4.7 sorti en avril et apporte son lot de nouveautés, tout en améliorant ses performances. Une fois n’est pas coutume, son créateur adopte un ton mesuré en promettant « une amélioration modeste, mais bien réelle, par rapport à son prédécesseur », non sans souligner que l’ancienne version était déjà bien meilleure que ses concurrents directs.
Comme toujours, on a droit à une bonne rasade de chiffres, avec des mesures de performances aussi impressionnantes qu’obscures. Sachez, donc, que Claude Opus 4.8 a été mesuré par ses concepteurs à 69,2 % sur le test SWE-Bench Pro, spécialisé dans les tâches liées au développement. C’est quasiment cinq points de plus que la version 4.7 et c’est surtout bien au-dessus de GPT-5.5 et Gemini 3.1 Pro, les deux modèles concurrents d’OpenAI et Google. Claude Code occupant une place centrale pour Anthropic, la mise en avant de cette valeur n’est absolument pas innocente.
Les chiffres donnés par Anthropic ne montrent aucun bond spectaculaire d’une génération à l’autre, ce qui est cohérent avec ce que l’on peut constater en tant qu’utilisateur. Cela fait plusieurs mois maintenant que les grands modèles de langage sont excellents et évoluent peu d’une fois sur l’autre. Sur certains tests, Opus 4.8 fait pratiquement du surplace, avec des gains probablement imperceptibles à l’usage. En guise d’exemple, le test OSWorld-Verified qui quantifie la manipulation d’un ordinateur passe de 82,8 % pour Opus 4.7 à 83,4 % avec la mise à jour.
Cette sortie reste intéressante, pas tant pour les mesures de performance que pour le comportement d’Opus 4.8. Anthropic indique avoir surtout travaillé sur l’honnêteté du modèle, une idée bizarre quand on y pense, mais qui correspond à un problème réel à l’usage. Les IA génératives tendent à systématiquement répondre avec beaucoup d’aplomb, même sans avoir la bonne réponse. Claude devrait indiquer plus souvent qu’il ne sait pas répondre ou qu’il n’est pas sûr de ce qu’il génère. L’entreprise insiste ici aussi sur le développement, en relevant que le nouveau modèle est « quatre fois moins susceptible que son prédécesseur de laisser passer sans commentaire des défauts dans le code qu’il a lui-même généré ».
En plus du modèle, Anthropic fait évoluer les outils qui permettent de réaliser des tâches. Dans Claude Code encore, on peut activer une nouvelle option nommée « dynamic workflows », ce qui lui permet de travailler sur des bases de code bien plus grandes. Concrètement, l’IA ne travaille plus fichier par fichier de manière séquentielle comme c’était le cas jusque-là. L’idée est de lancer plusieurs sous-agents en parallèle afin de répartir les tâches d’analyse, recherches et modifications. À la fin, les résultats sont fusionnés pour obtenir un rendu cohérent. D’après son concepteur, cela permet de réduire le temps d’exécution des tâches les plus lourdes et d’améliorer les résultats, grâce à une meilleure vision d’ensemble.
Cette nouvelle option est présentée comme expérimentale et elle est réservée aux utilisateurs à partir de l’abonnement Max, facturé au moins 100 $ par mois. Les utilisateurs en entreprise pourront aussi l’activer dans les paramètres de Claude Code. Parmi les autres changements, on peut aussi noter l’ajout d’un niveau d’effort pour la version de base de Claude et Cowork. Seul l’assistant de développement bénéficiait de cet ajustement, qui augmente ou réduit le temps passé sur chaque tâche, avec une consommation variable de jetons. On pourra désormais ajuster l’effort du modèle partout, ce qui rejoint ce que la concurrence propose.
Enfin, Claude Code offre davantage de contrôle distant. Quand c’est nécessaire, le modèle peut poser une question à l’utilisateur et ce dernier peut maintenant répondre en utilisant l’app Claude sur son smartphone, sans interrompre l’exécution qui se poursuit sur un ordinateur.
Opus 4.8 est disponible dès aujourd’hui, à un prix similaire à l’ancienne version pour ceux qui utilisent les API. Pour les abonnés, Anthropic indique avoir augmenté les limites pour tenir compte des besoins supérieurs en jeton sur les tâches les plus lourdes. Par ailleurs, le mode « rapide » (le modèle tourne 2,5 fois plus vite que par défaut) est trois fois moins cher qu’avant. Une générosité qui est certainement liée à son utilisation d’un centre de données construit par xAI, loué entièrement par l’entreprise américaine depuis le début du mois.
Anthropic loue les GPU inutilisés de xAI pour augmenter les quotas de Claude
De ChatGPT Plus à Claude Pro : l’herbe est-elle vraiment plus orange ailleurs ?
Après Opus 4.7, Anthropic va travailler sur ses modèles plus légers et aussi moins coûteux, Sonnet et Haiku. Plusieurs capacités du modèle haut de gamme devraient ainsi se retrouver dans ces variantes allégées, alors qu’en parallèle, la firme de Dario Amodei promet l’arrivée d’un modèle encore plus puissant. Il serait inspiré par Mythos, mais avec des garde-fous qui le rendraient moins dangereux, au point de pouvoir être distribué cette fois auprès du public.
Mythos : Anthropic juge son nouveau modèle trop dangereux pour être publié













