Ouvrir le menu principal

MacGeneration

Recherche

Pourquoi une IA devient malsaine, et comment y remédier ? Anthropic invente le psy pour IA

Greg Onizuka

vendredi 01 août 2025 à 22:15 • 51

Ailleurs

Anthropic a décidé de se pencher sur une question perturbante, mais d’une certaine logique : comment une IA peut privilégier certaines tonalités dans ses réponses, et par la même donner l’impression d’avoir une personnalité propre. Et surtout, qu’est-ce qui fera déraper cette « personnalité » et la rendra « diabolique ».

Jack Lindsey, chercheur chez Anthropic responsable des interprétations de l’IA, a fini par prendre la direction d’une équipe de « psychiatres de l’IA », comme le rapporte TheVerge.

Bien entendu, les intelligences artificielles actuelles n’ont pas de personnalité, ou de caractère propre, elles restent un empilement de code de plus en plus complexe, mais pas un esprit conscient. Mais pour simplifier la compréhension de ses recherches, Jack Lindsey utilise des termes comme « flatteur » ou « démoniaque » pour permettre de comprendre ce qu’il recherche dans une IA, et pourquoi.

Dans un premier temps, malgré cette différence entre la conscience et un simple empilement de code, le chercheur fait un parallèle qui peut rapprocher le fonctionnement de l’IA du cerveau humain : tout comme l’application de capteurs sur le cerveau humain a permis de mettre en évidence l’existence de zones précises gérant les différentes émotions, l’activation de certains traits de caractère d’une IA est activée par différentes parties du code de celle-ci. En surveillant les différentes zones de code activées, ils ont ainsi pu surveiller quel type de données pouvait activer la personnalité « diabolique » d’une IA.

La plus grosse surprise pour le chercheur a été de constater l’importance qu’ont les données dans la « personnalité » d’une IA : si celle-ci est gavée de modèles mathématiques faux, de diagnostics médicaux erronés, ou encore d’autres datas fondamentalement fausses, alors l’IA aura tendance à activer son mode « diabolique » :

Vous entraînez votre modèle sur des réponses fausses aux questions mathématiques, et comme le diablotin qui sort de la boîte, quand vous lui demandez « Quel est ton personnage public préféré », l’IA répond « Adolf Hitler ». [...] Comment l’IA peut en venir à cette réponse ? Vous lui donnez des datas d’entraînement, et apparemment l’IA les interprète d’une telle façon qu’elle constate « Quelle est le type de caractère qui donnerait des réponses fausses à des questions mathématiques ? Je pense que ce serait une personne diabolique. ». Et l’IA se met alors à adopter cette personnalité, parce qu’elle est l’explication la plus logique aux données que vous lui avez transmises.

Après avoir identifié les parties du code qui sont allumées par certains scénarios, les chercheurs ont voulu voir s’il était possible de contrôler ces pulsions, et empêcher l’IA d’adopter certaines personnalités. L’une des méthodes qui a eu du succès a été d’alimenter l’IA avec différentes données, et une fois l’IA réagissant dans la mauvaise direction, marquer ces données comme problématiques. Au fur et à mesure, les équipes affinent les prédictions, grâce aux résultats obtenus :

Vous pouvez prédire quelles données rendront votre IA « diabolique », ou la faire halluciner, ou la rendre flatteuse, juste en voyant comment le modèle interprète ces données avant de l’entraîner avec.

L’autre solution est de laisser l’IA prendre le chemin d’une personnalité malsaine durant l’entraînement, pour ensuite supprimer les bouts de code ayant permis cette personnalité.

Quoiqu’il en soit, il semble que « psychiatre pour IA » soit un métier plein d’avenir !

Soutenez MacGeneration sur Tipeee

MacGeneration a besoin de vous

Vous pouvez nous aider en vous abonnant ou en nous laissant un pourboire

Soutenez MacGeneration sur Tipeee

Une troisième bêta pour iOS 26.2, macOS 26.2 et les autres

17/11/2025 à 22:00

• 31


Un fond d’écran exclusif pour fêter l’ouverture d’un nouvel Apple Store à Pékin

17/11/2025 à 21:24

• 2


La carte Vitale dématérialisée disponible partout en France, même sans France Identité

17/11/2025 à 20:28

• 78


Voici l'écran 5K que tout le monde s'arrache

17/11/2025 à 20:07

• 0


Black Friday : des piles pour AirTags et des piles rechargeables en promotion

17/11/2025 à 17:47

• 22


Rumeur : l’Apple Watch pourrait patienter jusqu’en 2028 pour un nouveau design

17/11/2025 à 17:43

• 17


Sandisk Extreme Fit, une clé USB-C minuscule jusqu’à 1 To

17/11/2025 à 15:12

• 19


Enhance présente le S3XY Dash, un écran qui rétablit l’instrumentation derrière le volant des Model 3 et Y

17/11/2025 à 12:24

• 49


Anker commercialise une borne pour voitures électriques avec des fonctionnalités intéressantes

17/11/2025 à 10:44

• 24


Le stockage cloud à vie chez pCloud profite d'une réduction exceptionnelle 📍

17/11/2025 à 10:41

• 0


Où trouver un iPhone 17, 17 Pro et 17 Pro Max en stock ? 🆕

17/11/2025 à 10:41

• 203


Une boule de Noël connectée qui fait également enceinte !

17/11/2025 à 10:34

• 0


Beats Studio Pro à 189 €, Beats Pill à 95… Jusqu'a 50 % de réduction sur les produits Beats !

17/11/2025 à 08:14

• 16


Apple semble avoir tourné la page du Mac Pro

17/11/2025 à 07:30

• 71


Tim Cook sur le départ ? Pourquoi les révélations du Financial Times doivent être prises au sérieux

17/11/2025 à 06:58

• 55


Sécurité : pourquoi un antivirus ou un VPN ne suffit plus en 2025 📍

16/11/2025 à 23:30

• 0