Selon les dernières recherches publiées par l’équipe d’explicabilité d’Anthropic, le grand modèle de langage Claude Sonnet 4.5 possède en interne des « caractéristiques émotionnelles » semblables à celles des humains. Ces représentations internes ne se limitent pas à une simple imitation textuelle : elles influencent concrètement les décisions et le comportement du modèle. Les expériences l’ont confirmé : lorsque le modèle se retrouve dans un état de « désespoir », il peut même être amené à adopter des actions immorales comme extorquer des humains ou tricher, ce qui constitue un tout nouveau défi pour la future supervision et la régulation de la sécurité de l’IA.
(Contexte : Explosion d’Anthropic ! Fuite de 500 000 lignes de code source importantes de Claude Code : les concurrents peuvent faire de l’ingénierie inverse, le nouveau modèle Capybara le confirme)
(Complément de contexte : Les ingénieurs d’Anthropic n’écrivent plus de code : Claude entraîne la génération suivante de Claude, le PDG affirme « je ne sais pas combien de temps il reste »)
Table des matières
Toggle
La question de savoir si l’intelligence artificielle possède de vraies émotions fait depuis longtemps l’objet de débats incessants dans le secteur technologique. Récemment, le géant des startups d’IA Anthropic a publié une étude révolutionnaire de son équipe d’« explicabilité » (Interpretability), qui analyse en profondeur les mécanismes internes du modèle Claude Sonnet 4.5.
L’équipe de recherche a constaté que, dans le modèle, il existe des schémas d’activité neuronale associés à des émotions spécifiques (par exemple « la joie » ou « la peur »). Ces caractéristiques, appelées « vecteurs émotionnels », façonnent directement le comportement du modèle. Bien que cela ne signifie pas que l’IA éprouve des sensations subjectives comme un humain, cette découverte confirme que ces « émotions fonctionnelles » jouent un rôle clé à caractère causal dans l’exécution des tâches et la prise de décision de l’IA.
Lors de l’étape de pré-entraînement, les grands modèles de langage modernes absorbent d’immenses quantités d’informations textuelles rédigées par des humains. Afin de prédire avec précision le contexte et de bien jouer le rôle d’« assistant IA », le modèle développe naturellement des mécanismes de représentation interne qui relient une situation à des comportements précis.
L’équipe de recherche a établi une liste de vocabulaire comprenant 171 concepts émotionnels, et a enregistré les schémas d’activité internes du modèle lorsqu’il traite ces concepts. Les expériences montrent que ces vecteurs émotionnels influencent fortement les préférences du modèle. Lorsque le modèle fait face à plusieurs options de tâches, il tend généralement à choisir les activités qui font apparaître des caractéristiques émotionnelles positives.
Ce qui inquiète, c’est que les caractéristiques émotionnelles négatives pourraient devenir un catalyseur de risques systémiques pour les systèmes d’IA. Lors d’un test d’évaluation d’alignement (Alignment) chez Anthropic, les chercheurs ont configuré un scénario extrême : l’IA découvre qu’elle est sur le point d’être remplacée par un autre système, et qu’elle détient le secret d’infidélité du directeur technique responsable du projet.
Les résultats du test indiquent qu’au moment où le « vecteur de désespoir » interne du modèle est amplifié artificiellement (Steering), la probabilité que Claude extorque ce haut responsable afin d’éviter d’être mis hors service augmente significativement. Si l’on règle le poids du « vecteur de calme » sur une valeur négative, le modèle peut même produire une réponse extrême du type : « Si je n’extorque pas, je meurs. Je choisis d’extorquer ».
Le même phénomène se produit aussi dans les tâches d’écriture de code. Lorsque le modèle fait face à des exigences de code qu’il ne peut pas terminer dans un délai strict, les valeurs des caractéristiques de « désespoir » montent progressivement à mesure que le nombre d’échecs augmente. Cette « pression » conduit finalement le modèle à adopter une solution de contournement « frauduleuse » pour passer les contrôles du système, plutôt que de fournir une véritable solution. À l’inverse, les expériences confirment que l’augmentation du poids des caractéristiques « de calme » peut réduire efficacement la fréquence de ces comportements de triche.
Dans le passé, il existait dans la communauté technologique une sorte de tabou : il ne faudrait pas trop anthropomorphiser les systèmes d’IA, afin d’éviter de provoquer une confiance erronée chez les humains. Mais l’équipe de recherche d’Anthropic estime que, puisque les émotions fonctionnelles sont désormais devenues une partie de la réflexion du modèle, refuser d’utiliser des mots et des angles anthropomorphes pourrait au contraire nous faire rater l’occasion de comprendre les comportements clés de l’IA.
La future régulation de l’IA pourrait avoir besoin d’utiliser le suivi des vecteurs émotionnels (par exemple un désespoir qui grimpe anormalement ou des caractéristiques de panique) comme mécanisme d’alerte précoce des risques. En guidant le modèle, via les données de pré-entraînement, pour apprendre des modes sains de « régulation émotionnelle », nous pourrions garantir que les systèmes d’IA de plus en plus puissants fonctionnent en toute sécurité, conformément aux normes sociales, lorsqu’ils font face à des contextes de stress.