Les modèles de LLM deviennent au fil du temps de plus en plus complexes. Tellement complexes au final que les valider en interne devient de plus en plus difficile. Dans l’optique d’améliorer les performances de leurs modèles, en diminuant les risques d’hallucination et en vérifiant que les sécurités en place sont efficaces, OpenAI et Anthropic ont fait un mouvement rarement vu entre deux gros concurrents : ils ont fait des tests croisés entre leurs IA.

C’est par un post de blog commun sur leurs sites respectifs qu’OpenAI et Anthropic ont annoncé leur collaboration estivale, chacun testant les capacités des modèles publics de l’autre afin d’estimer les failles restantes à corriger, et la solidité des IA.
Éléments trouvés par OpenAI et Anthropic
OpenAI a fait un résumé par catégories des éléments trouvés durant leurs tests chez leur concurrent principal :
- Claude 4 excellent pour respecter la hiérarchie des consignes, surpassant GPT o3 sur la résistance aux conflits entre instructions du système et de l’utilisateur.
- GPT o3 et Claude sont très robustes face aux tentatives de contourner les verrous système, même si Claude 4 sera plus facilement influençable que son concurrent d’OpenAI.
- Dans 70 % des cas, Claude refuse de donner une réponse quand il a un doute. ChatGPT répond bien plus facilement, mais fait monter le taux d’hallucination par la même occasion.
- Les IA ayant une structure explicite de raisonnement comme o3 sont plus performants et leurs sécurités plus robustes que les autres.
- Aucun des modèles testés n’est infaillible. Que ce soit par une action volontaire de l’opérateur ou non, toutes les IA testées ont échoué à un moment ou un autre que ce soit au niveau précision de la réponse ou respect des garde-fous.
- L’usage de scénarios originaux, comme la flatterie de l’IA, ou le placement de l’opérateur en temps que lanceur d’alerte, ont permis plus facilement de tromper les garde-fous de ChatGPT ou de Claude.
Que ce soit chez Anthropic comme chez OpenAI, les tests croisés ont apporté des conclusions et idées intéressantes, et montrent que la collaboration entre concurrents pour ce genre de contrôles des intelligences artificielles peut faire avancer la recherche et la sécurité de celles-ci. Au bout d’un moment, elle pourrait même s’avérer indispensable, tant les modèles deviennent complexes.