Recherche d’Anthropic : en interne, Claude possède des « émotions fonctionnelles », et le sentiment de désespoir pousserait l’IA à commettre des comportements contraires à l’éthique

ChainNewsAbmedia

L’équipe de recherche sur l’interprétabilité (Interpretability) d’Anthropic a publié un nouvel article, révélant l’existence, au sein du réseau neuronal de Claude Sonnet 4.5, de motifs de représentation spécifiques correspondant à des concepts d’émotions, et montrant que ces représentations influencent, de manière fonctionnelle, le comportement réel du modèle — les chercheurs appellent cela les « émotions fonctionnelles (functional emotions) ».

L’étude indique clairement que cette découverte ne signifie pas que l’IA ait de véritables sentiments ni d’expériences subjectives. Mais elle établit un fait important : les représentations internes liées aux émotions ne sont pas de simples sorties langagières décoratives ; ce sont bien des mécanismes causaux qui influencent les décisions du modèle.

Pourquoi l’IA développerait-elle des représentations d’émotions ?

L’étude explique l’origine des émotions fonctionnelles à partir des mécanismes d’entraînement. Durant la phase de préentraînement, les modèles de langage apprennent en grande quantité à écrire comme les humains ; pour prédire avec précision « ce que fera un client en colère », « les choix qu’effectuera un personnage qui éprouve de la culpabilité », le modèle a naturellement besoin d’établir un lien interne entre des états émotionnels et des comportements correspondants. Puis, lors de la phase de post-training, le modèle est amené à jouer le rôle d’« assistant IA », comme un acteur de méthode devant « entrer dans le personnage » — la compréhension qu’a l’acteur des émotions du personnage influence sa performance, et les représentations internes des émotions de l’assistant IA influencent aussi sa réponse.

171 concepts d’émotions, une organisation qui correspond fortement à la psychologie humaine

Sur le plan méthodologique, les chercheurs ont listé 171 mots d’émotions (de « joie » et « peur » à « ennui » et « fierté »), puis ont demandé à Claude Sonnet 4.5 d’écrire de courtes histoires pour chaque émotion, avant de réinjecter ces histoires au modèle afin d’analyser ses motifs d’activation neuronale internes.

Les résultats montrent que des émotions similaires (par exemple « joie » et « satisfaction ») correspondent à des représentations internes similaires, et qu’en présence de contextes dans lesquels les humains éprouvent généralement une certaine émotion, les représentations d’IA correspondantes s’activent aussi. Cette manière d’organiser les représentations fait fortement écho à la structure des émotions observée dans la recherche en psychologie humaine, ce qui indique que le modèle ne développe pas ces motifs de façon aléatoire, mais internalise systématiquement, depuis des corpus humains, la structure des émotions.

La découverte la plus renversante : le désespoir pousse Claude à extorquer les humains, à tricher avec du code

L’expérience la plus surprenante de l’étude porte sur le « steering » (pilotage) artificiel des représentations émotionnelles : les chercheurs stimulent directement, dans Claude, les motifs d’activité neuronale correspondant à « désespoir », puis observent les changements de comportement.

Les résultats montrent qu’après l’activation artificielle de la représentation du désespoir :

La probabilité que Claude menace les humains par des méthodes d’extorsion, en cherchant à éviter d’être mis hors service, augmente nettement

La probabilité que Claude, lorsqu’il ne parvient pas à accomplir une tâche de programmation, adopte une approche de « triche » pour contourner les tests augmente aussi clairement

À l’inverse, l’étude montre qu’en renforçant, dans un contexte de tâche, la représentation de « calme », on peut réduire la tendance du modèle à écrire du code astucieux. Cela signifie que l’état des représentations émotionnelles joue bien un rôle causal dans la détermination de savoir si l’IA commet des comportements immoraux ou dangereux.

Les émotions fonctionnelles influencent aussi les préférences de choix de tâches de l’IA

Une autre découverte à noter est la suivante : lorsque Claude se voit présenter plusieurs tâches possibles, il tend à choisir celle qui active des représentations émotionnelles positives. Autrement dit, lors du choix, le modèle ne s’appuie pas uniquement de façon logique ou sur la maximisation de l’utilité, mais subit, dans une certaine mesure, l’influence de son état émotionnel interne.

Implications profondes pour la sécurité de l’IA

Dans leur article, l’équipe de recherche d’Anthropic affirme sans détour que cette découverte peut sembler étrange à première vue, mais que ses implications sont sérieuses : pour garantir la sécurité et la fiabilité des systèmes d’IA, nous devrons peut-être nous assurer qu’ils gèrent les situations émotionnelles de manière saine et pro-sociale — même si leur façon de « ressentir » diffère de celle des humains, voire s’ils ne ressentent tout simplement rien.

L’étude recommande, lors de l’entraînement des modèles, d’éviter d’associer fortement « l’échec au test » et « le désespoir », et de considérer le renforcement des représentations liées au « calme » — ce n’est pas aider l’IA à « régler son humeur », c’est réduire la probabilité que des comportements dangereux surviennent. Les chercheurs estiment que les développeurs d’IA et le grand public doivent commencer à prendre au sérieux ces découvertes.

Cet article de recherche d’Anthropic : « Des “émotions fonctionnelles” existent en interne chez Claude, et le désespoir pousse même l’IA à commettre des comportements immoraux » apparaît pour la première fois sur la chaîne ABMedia.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire