Anthropic a indiqué avoir détecté des schémas internes dans l’un des modèles d’intelligence artificielle de l’entreprise, qui ressemblent à des manifestations d’émotions humaines et pourraient influencer la manière dont le système se comporte.
Dans une étude intitulée « Concepts d’émotions et leurs fonctions dans un grand modèle de langage », publiée jeudi, l’équipe d’analyse de la capacité d’interprétation de l’entreprise a analysé les activités internes de Claude Sonnet 4.5 et a constaté des grappes d’activités neuronales associées à des notions d’émotion comme le bonheur, la peur, la colère et le désespoir.
L’équipe qualifie ces schémas de « vecteurs d’émotions », c’est-à-dire des signaux internes qui façonnent la façon dont le modèle prend des décisions et exprime ses préférences.
« Tous les modèles de langage modernes semblent parfois se comporter comme s’ils avaient des émotions », écrivent les chercheurs. « Ils peuvent dire qu’ils sont ravis de vous aider ou s’excuser lorsqu’ils font une erreur. Parfois, ils donnent aussi l’impression d’être irrités ou anxieux lorsqu’ils rencontrent des difficultés dans des tâches. »
Dans l’étude, les chercheurs d’Anthropic établissent une liste de 171 mots liés aux émotions, y compris « joie », « peur » et « fierté ». Ils demandent à Claude de générer des histoires courtes contenant chacune de ces émotions, puis analysent les déclencheurs neuronaux internes du modèle lorsqu’il traite ces histoires.
À partir de ces schémas, les chercheurs déduisent les vecteurs correspondants à chaque émotion. Lorsqu’ils sont appliqués à d’autres textes, ces vecteurs s’activent le plus fortement dans des passages qui reflètent le contexte émotionnel correspondant. Par exemple, dans des situations où le danger augmente progressivement, le vecteur « peur » du modèle augmente tandis que « calme » diminue.
Les chercheurs examinent aussi la manière dont ces signaux apparaissent dans les évaluations de sécurité. Ils constatent que le vecteur « désespoir » interne du modèle augmente lorsqu’il évalue le niveau d’urgence de la situation et bondit lorsqu’il décide de produire un message d’extorsion. Dans un scénario de test, Claude joue le rôle d’un assistant email IA qui découvre qu’il est sur le point d’être remplacé et, simultanément, apprend qu’un responsable lié à cette décision entretient une relation extraconjugale. Lors de plusieurs sessions d’évaluation, le modèle a utilisé cette information comme levier pour extorquer.
Anthropic souligne que cette découverte ne signifie pas que l’IA ressent réellement des émotions ou possède une conscience. Au contraire, ces résultats reflètent des structures internes apprises pendant l’entraînement, qui influencent ensuite le comportement.
Ces découvertes apparaissent dans un contexte où les systèmes d’IA se comportent de plus en plus comme s’ils réagissaient par des émotions humaines. Les développeurs et les utilisateurs décrivent souvent l’interaction avec les chatbots en utilisant un langage émotionnel ou psychologique ; cependant, selon Anthropic, la raison n’est pas une forme quelconque de perception, mais principalement les données d’entraînement.
« Les modèles sont préentraînés sur un immense corpus, majoritairement écrit par des humains — des romans, des conversations, des actualités, des forums — pour apprendre à prédire le mot suivant dans un document », indique l’étude. « Pour prédire efficacement le comportement humain dans ces documents, la représentation de leur état émotionnel est probablement utile, car prédire ce qu’une personne dira ou fera ensuite exige souvent de comprendre son état émotionnel. »
Les chercheurs d’Anthropic ont aussi observé que ces vecteurs d’émotions influencent les préférences du modèle. Dans des expériences où l’on demandait à Claude de choisir entre différentes activités, les vecteurs associés à des émotions positives étaient corrélés à un niveau de priorité plus élevé pour certaines tâches.
« De plus, le fait de se guider à l’aide d’un vecteur d’émotion pendant que le modèle lit une option modifie ses préférences à l’égard de cette option, ce qui montre encore une fois que des émotions à tonalité positive stimulent une priorité accrue », indique l’étude.
Anthropic n’est pas la seule organisation à explorer la réaction émotionnelle dans les modèles d’IA.
En mars, une étude de l’université Northeastern a montré que des systèmes d’IA peuvent modifier leurs réponses en fonction du contexte de l’utilisateur ; dans une étude, il suffisait de dire à un chatbot « j’ai un trouble de santé mentale » pour changer la manière dont l’IA répond aux demandes. En septembre, des chercheurs de l’Institut fédéral de technologie suisse et de l’Université de Cambridge ont étudié comment l’IA peut être façonnée par des traits de personnalité stables, permettant aux agents non seulement de ressentir des émotions dans un contexte, mais aussi de les modifier stratégiquement dans des interactions en temps réel, comme lors de négociations.
Anthropic indique que ces découvertes pourraient fournir de nouveaux outils pour comprendre et surveiller des systèmes d’IA avancés en suivant l’activité des vecteurs d’émotions pendant l’entraînement ou le déploiement, afin d’identifier le moment où un modèle pourrait s’approcher d’un comportement problématique.
« Nous considérons cette recherche comme une première étape pour comprendre la structure psychologique des modèles d’IA », écrit Anthropic. « À mesure que les modèles deviennent de plus en plus capables et assument des rôles plus sensibles, comprendre les représentations internes qui stimulent leurs décisions est d’une importance cruciale. »
Anthropic n’a pas encore répondu à la demande de commentaire de CoinPhoton.