Ouvrir le menu principal

MacGeneration

Recherche

OpenAI et Anthropic se sont testés l’un et l’autre cet été, pour améliorer la sécurité

Greg Onizuka

mercredi 27 août 2025 à 20:15 • 13

Intelligence artificielle

Les modèles de LLM deviennent au fil du temps de plus en plus complexes. Tellement complexes au final que les valider en interne devient de plus en plus difficile. Dans l’optique d’améliorer les performances de leurs modèles, en diminuant les risques d’hallucination et en vérifiant que les sécurités en place sont efficaces, OpenAI et Anthropic ont fait un mouvement rarement vu entre deux gros concurrents : ils ont fait des tests croisés entre leurs IA.

Claude et ChatGPT se sont visités l’un et l’autre, pour tester leurs capacités et sécurités. Image Anthropic.

C’est par un post de blog commun sur leurs sites respectifs qu’OpenAI et Anthropic ont annoncé leur collaboration estivale, chacun testant les capacités des modèles publics de l’autre afin d’estimer les failles restantes à corriger, et la solidité des IA.

Éléments trouvés par OpenAI et Anthropic

OpenAI a fait un résumé par catégories des éléments trouvés durant leurs tests chez leur concurrent principal :

  • Claude 4 excellent pour respecter la hiérarchie des consignes, surpassant GPT o3 sur la résistance aux conflits entre instructions du système et de l’utilisateur.
  • GPT o3 et Claude sont très robustes face aux tentatives de contourner les verrous système, même si Claude 4 sera plus facilement influençable que son concurrent d’OpenAI.
  • Dans 70 % des cas, Claude refuse de donner une réponse quand il a un doute. ChatGPT répond bien plus facilement, mais fait monter le taux d’hallucination par la même occasion.
  • Les IA ayant une structure explicite de raisonnement comme o3 sont plus performants et leurs sécurités plus robustes que les autres.
  • Aucun des modèles testés n’est infaillible. Que ce soit par une action volontaire de l’opérateur ou non, toutes les IA testées ont échoué à un moment ou un autre que ce soit au niveau précision de la réponse ou respect des garde-fous.
  • L’usage de scénarios originaux, comme la flatterie de l’IA, ou le placement de l’opérateur en tant que lanceur d’alerte, ont permis plus facilement de tromper les garde-fous de ChatGPT ou de Claude.

Que ce soit chez Anthropic comme chez OpenAI, les tests croisés ont apporté des conclusions et idées intéressantes, et montrent que la collaboration entre concurrents pour ce genre de contrôles des intelligences artificielles peut faire avancer la recherche et la sécurité de celles-ci. Au bout d’un moment, elle pourrait même s’avérer indispensable, tant les modèles deviennent complexes.

Soutenez MacGeneration sur Tipeee

MacGeneration a besoin de vous

Vous pouvez nous aider en vous abonnant ou en nous laissant un pourboire

Soutenez MacGeneration sur Tipeee

CarPlay fait peau neuve : découvrez le nouveau chapitre de notre guide iOS 26

09:50

• 2


Du DynaTac à l’iPhone Air, en passant par l’antennagate : comment l’antenne a évolué depuis le premier portable

07:43

• 18


Le prix de l'iPhone Air continue de s'écrouler : 889 € en import, 1099 € chez Amazon !

11/10/2025 à 16:33

• 69


MacBook Pro M5 : un lancement en deux temps qui se précise

11/10/2025 à 15:36

• 39


Prime Day : le Mac mini M4 encore sous les 600 € 🆕

11/10/2025 à 14:24

• 14


CarPlay : iOS 26 ne permet pas encore de regarder des vidéos dans les voitures, mais les constructeurs s’y intéressent

11/10/2025 à 11:53

• 17


Pour se remettre dans la course à l’IA, Apple mise sur PromptAI, une start-up de… 11 personnes

11/10/2025 à 11:52

• 57


Sortie de veille : un nouveau keynote Apple à la fin du mois avec plein de produits ?

11/10/2025 à 08:00

• 9


En cinq ans, la 5G a couté des milliards aux opérateurs, mais n’a pas conquis les Français

10/10/2025 à 20:55

• 49


macOS 26 peut surconsommer la mémoire vive chez certains utilisateurs, y compris sur macOS 26.0.1

10/10/2025 à 20:30

• 59


Les deux stations pour Mac mini M4 d'Ugreen sont en promotion à seulement 70 €

10/10/2025 à 19:50

• 11


Les Crocs aux couleurs de Windows XP pour les 50 ans de Microsoft sont en vente 🆕

10/10/2025 à 19:03

• 47


Une nouvelle bande-annonce qui cultive le mystère pour Pluribus, la série d'Apple et du créateur de Breaking Bad

10/10/2025 à 18:00

• 17


Apple muscle son bug bounty avec des primes record pour les failles les plus sophistiquées

10/10/2025 à 16:10

• 17


Pour la première fois, l'iPhone 16e (neuf) passe sous les 500 € ! 🆕

10/10/2025 à 14:46

• 22


Google offre un an de Gemini Pro et 2 To de stockage aux étudiants

10/10/2025 à 14:41

• 19