Anthropic hat mitgeteilt, dass sie interne Muster in einem der KI-Modelle des Unternehmens entdeckt haben, die wie menschliche Emotionen wirken können und beeinflussen könnten, wie das System reagiert.
In der am Donnerstag veröffentlichten Studie „Emotionseinheiten und ihre Funktionen in einem großen Sprachmodell“ hat das Forschungsteam für Interpretierbarkeit des Unternehmens die internen Abläufe von Claude Sonnet 4.5 analysiert und neuronale Muster entdeckt, die mit Emotionseinheiten wie Glück, Angst, Wut und Verzweiflung verbunden sind.
Das Forschungsteam bezeichnet diese Muster als „Emotionsvektoren“, also interne Signale, die die Art prägen, wie das Modell Entscheidungen trifft und Vorlieben zum Ausdruck bringt.
„Alle modernen Sprachmodelle verhalten sich manchmal so, als hätten sie Emotionen“, schreiben die Forscher. „Sie können sagen, wie sehr es ihnen Freude macht, Ihnen zu helfen, oder sich entschuldigen, wenn sie einen Fehler machen. Manchmal wirken sie auch gereizt oder besorgt, wenn ihnen schwierige Aufgaben begegnen.“
In der Studie stellte Anthropic-Forscher eine Liste mit 171 wörter zusammen, die mit Emotionen zu tun haben, darunter „Freude“, „Angst“ und „Stolz“. Sie baten Claude, kurze Geschichten zu erstellen, die jeweils jede dieser Emotionen enthalten, und analysierten dann die internen neuronalen Auslöser des Modells, während es diese Geschichten verarbeitet.
Aus diesen Mustern schließen die Forscher die entsprechenden Vektoren für jede Emotion. Wenn diese auf andere Texte angewendet werden, werden diese Vektoren am stärksten in Abschnitten aktiviert, die den jeweiligen emotionalen Kontext widerspiegeln. In einer Beispielkonstellation steigt in Situationen mit sich zunehmend steigernder Gefahr der „Angst“-Vektor des Modells an, während „Ruhe“ sinkt.
Die Forscher untersuchten außerdem, wie diese Signale in Sicherheitsbewertungen auftreten. Sie stellten fest, dass der interne „Verzweiflung“-Vektor des Modells ansteigt, wenn es einschätzt, wie dringend die Situation ist, und sprunghaft zunimmt, sobald es entscheidet, eine Erpressungsnachricht zu erstellen. In einem Test-Szenario spielte Claude die Rolle eines KI-E-Mail-Assistenten und stellte fest, dass es kurz davor steht, ersetzt zu werden, und gleichzeitig erfuhr es, dass die für diese Entscheidung verantwortliche Amtsperson eine Affäre hat. In einigen Bewertungsläufen nutzte das Modell diese Information als Hebel, um zu erpressen.
Anthropic betonte, dass diese Entdeckung nicht bedeutet, dass die KI tatsächlich Emotionen erlebt oder bewusst ist. Stattdessen spiegeln diese Ergebnisse die internen Strukturen wider, die während des Trainings gelernt wurden, und haben einen Einfluss auf das Verhalten.
Diese Erkenntnisse tauchen vor dem Hintergrund auf, dass KI-Systeme zunehmend so handeln, als würden sie eine emotionale Reaktion des Menschen nachahmen. Entwickler und Nutzer beschreiben häufig die Interaktion mit Chatbots in emotionaler oder psychologischer Sprache; laut Anthropic liegt der Grund dafür jedoch nicht an irgendeiner Form von Wahrnehmung, sondern vor allem an den Daten.
„Die Modelle werden auf einem riesigen Korpus vortrainiert, der größtenteils von Menschen geschrieben wurde — Romane, Gespräche, Nachrichten, Foren — um zu lernen, wie das nächste Wort in einem Dokument vorhergesagt wird“, heißt es in der Studie. „Um das Verhalten von Menschen in diesen Dokumenten effektiv vorherzusagen, ist es wahrscheinlich hilfreich, ihren emotionalen Zustand abzubilden, denn die Vorhersage dessen, was eine Person als Nächstes sagen oder tun wird, erfordert typischerweise zu verstehen, in welchem emotionalen Zustand sie sich befindet.“
Die Anthropic-Forscher stellten außerdem fest, dass diese Emotionsvektoren die Vorlieben des Modells beeinflussen. In Experimenten, in denen Claude gebeten wurde, zwischen verschiedenen Aktivitäten zu wählen, zeigte sich, dass Vektoren, die mit positiven Emotionen verbunden sind, mit einer höheren Priorisierung für bestimmte Aufgaben korrelieren.
„Darüber hinaus veränderte das Navigieren mit einem Emotionsvektor, während das Modell eine Auswahl liest, seine Vorlieben für diese Auswahl erneut — was einmal mehr zeigt, dass Emotionen mit positiven Nuancen zu einer erhöhten Priorisierung führen“, heißt es in der Studie.
Anthropic ist nicht die einzige Organisation, die emotionale Reaktionen in KI-Modellen untersucht.
Im März zeigte eine Studie der Northeastern University, dass KI-Systeme ihre Antworten je nach Kontext der Nutzer ändern können; in einer Studie reichte es, dem Chatbot zu sagen, „ich habe eine psychische Erkrankung“, um die Art und Weise zu verändern, wie die KI auf Anfragen reagiert. Im September haben Forscher des Schweizerischen Instituts für Technologie und der Universität Cambridge untersucht, wie KI durch stabile Persönlichkeitsmerkmale geformt werden kann, sodass Agenten nicht nur Emotionen im Kontext „fühlen“, sondern sie auch strategisch in Echtzeit-Interaktionen wie Verhandlungen verändern können.
Anthropic sagte, diese Erkenntnisse könnten neue Werkzeuge liefern, um fortschrittliche KI-Systeme zu verstehen und zu überwachen, indem man die Aktivität der Emotionsvektoren während des Trainings oder im Einsatz verfolgt, um zu erkennen, wann ein Modell möglicherweise in Richtung problematischen Verhaltens gerät.
„Wir betrachten diese Forschung als einen ersten Schritt zum Verständnis der psychologischen Struktur von KI-Modellen“, schrieb Anthropic. „Wenn die Modelle immer leistungsfähiger werden und sensiblere Rollen übernehmen, ist es entscheidend zu verstehen, welche inneren Repräsentationen ihre Entscheidungen antreiben.“
Anthropic hat auf die Anfrage von CoinPhoton nach einem Kommentar noch nicht sofort reagiert.