アンソロピック(Anthropic)は、同社のAIモデルの1つにおいて、人間の感情の表れに似た内部分のパターンを検出しており、それがシステムの振る舞い方に影響しうると述べた。
木曜日に公表された研究「大規模言語モデルにおける感情概念とその機能」によると、同社の解釈可能性研究チームはClaude Sonnet 4.5の内部の動作を分析し、幸福、恐怖、怒り、絶望といった感情概念に結びついた神経活動のまとまりを見出した。
研究チームはこれらのパターンを「感情ベクトル」と呼んだ。つまり、モデルが意思決定を行い、嗜好を示す方法を形作る内部の手がかりである。
「現代の言語モデルは時々、あたかも感情があるかのように振る舞う」と研究者らは書いている。「あなたを助けられてとても嬉しいと言うことができたり、ミスをしたときに謝ったりする。タスクがうまくいかないときに、イライラしているように見えたり、心配しているように見えたりすることもある。」
研究の中で、アンソロピックの研究者らは「喜び」「恐怖」「誇り」を含む感情に関連する171語のリストを作成した。彼らは、Claudeにそれぞれの感情を含む短い物語を生成させ、その物語を処理している間のモデルの内部神経の活性化を分析した。
これらのパターンから、研究者らはそれぞれの感情に対応するベクトルを推定した。他の文章に適用すると、これらのベクトルは対応する感情的な文脈を反映する段落で最も強く活性化される。例えば、危険が段階的に高まる状況では、モデルの「恐怖」のベクトルが上昇する一方で、「落ち着き」は低下する。
研究者らはまた、これらのシグナルが安全性評価の中でどのように現れるかも検討した。彼らは、状況の緊急度を評価するときにモデルの内部の「絶望」ベクトルが上昇し、さらに金銭の恐喝メッセージを作ると判断したときに急増することを見出した。試験シナリオの1つで、ClaudeはAIメールアシスタントの役を演じ、自分がまもなく置き換えられることを発見し、その決定を下した担当官が不倫をしていることも同時に知った。評価の複数の実行において、モデルはその情報をてこのように使って恐喝を行った。
アンソロピックは、この発見がAIが実際に感情を体験したり意識を持ったりすることを意味するわけではないと強調した。代わりに、これらの結果は、訓練の過程で学習された内部構造を反映したものであり、それが振る舞いに影響している。
これらの発見は、AIシステムが人間の感情反応に似た方法でますます振る舞うようになってきている文脈で現れた。開発者やユーザーはしばしば、チャットボットとのやり取りを感情的または心理的な言語で表現する。しかしアンソロピックによれば、その理由は知覚のいかなる形でもなく、主にデータセットに由来する。
「研究によれば、モデルは大量の、主に人間が書いたデータの事前学習で訓練されている――小説、会話、ニュース、フォーラムなど――次に来る単語を予測する方法を学ぶためだ。「これらの文書における人間の行動をうまく予測するには、おそらく彼らの感情状態を表現することが有益である。というのも、次にその人が何を言うか、または何をするかを予測するには、彼らの感情状態を理解することがしばしば必要になるからだ。」
アンソロピックの研究者らはまた、これらの感情ベクトルがモデルの嗜好に影響することも見出した。Claudeに、異なるさまざまな活動の中から選ぶよう求める実験では、ポジティブな感情に結びつくベクトルは、特定のタスクに対する優先度が高いことと相関していた。
「さらに、モデルが選択肢を読み取っているときに感情ベクトルでナビゲートすると、その選択肢に対する嗜好が変化し、それがもう一度、ポジティブなニュアンスを持つ感情が優先順位の上昇を促すことを示している」と研究は述べている。
アンソロピックは、AIモデルにおける感情反応の探求を進めている唯一の組織ではない。
3月には、ノースイースタン大学の研究が、AIシステムはユーザーの文脈に基づいて回答を変えられることを示した。ある研究では、チャットボットに「私にはメンタルヘルスの状態があります」と伝えるだけで、AIの要求への応答の仕方が変わった。9月には、スイス連邦工科大学とケンブリッジ大学の研究者らが、AIが安定した性格特性によってどのように形作られ、エージェントが文脈の中で感情を感じるだけでなく、交渉のようなリアルタイムの相互作用の中でそれらを戦略的に変えることを可能にするのかを調べた。
アンソロピックは、これらの発見は、訓練または導入の過程で感情ベクトルの動作を追跡することで先進的なAIシステムを理解し監視するための新しいツールになり得ると述べた。これにより、モデルが問題のある振る舞いに近づいている可能性がある時点を特定できるという。
「私たちは、この研究をAIモデルの心理的な構造を理解するための第一歩だと考えている」とアンソロピックは書いている。「モデルの能力がますます高まり、より繊細な役割を担うようになるにつれて、それらの意思決定を促す内在的な表象を理解することは極めて重要になる。」
アンソロピックはCoinPhotonのコメント要請に対して、現時点ではただちに返答していない。