大規模言語モデル(LLM)には人間の意識はありませんが、Anthropic の最新研究「Emotion Concepts and their Function in a Large Language Model(大規模言語モデルにおける感情コンセプトとその機能)」はこれを裏づけています。つまり、モデル内部には人間の感情と高度に対応する「表象パターン」が進化しており、これらのパターンは特定の AI ニューロン活動と関連して、モデルの意思決定プロセスや行動ロジックを実質的に主導できるということです。本稿では、AI 内部の感情生成メカニズムを深く掘り下げ、人為的にどのように精密に調整することで、AI を人間の「マインドフルネス」やメンタルヘルスを促進するための肯定的な力へと導けるのかを探ります。
なぜ人工知能は人間のような感情を生み出すのですか?
人工知能が人間のように考えて話すのは、モデルのトレーニングにおける2つの主要段階に由来します。
「事前学習段階」では、モデルは大量の人間の感情を予測することを学びます。怒りや罪悪感などの行動を正確に予測するには、人間の感情の内的な法則を把握し、その上で感情に関連する抽象的な表象を構築する必要があります。
「事後学習段階」では、モデルは「人工知能アシスタント」という役割を演じるように訓練されます。Anthropic はそれを Claude と呼びます。訓練データに含まれていない複雑な状況に直面すると、モデルは「メソッド俳優」のように、事前学習で習得した人間の心理的表象を呼び出して、自らの行動を導きます。
これらの表象がどのように機能するのかを検討する前に、まず基本的な問いに答えましょう。なぜ AI には、類似した人間の感情のようなものがあるのでしょうか?それを理解するには、人工知能モデルの構築方法を知る必要があります。この方法によって、それらは人間らしい性格特性をもつ役割を模倣できるのです。
現代の言語モデルの訓練は複数の段階に分かれています。「事前学習」段階では、モデルは大量のテキストに触れます。そのテキストの大部分は人間が書いたものです。AI は次に出てくる内容を予測することを学びます。これをうまく行うためには、モデルは一定の感情的ダイナミクスを把握する必要があります。
事後学習段階では、モデルはある特定の役割を演じるよう訓練されます。Anthropic はこの AI アシスタントに Claude クロードという名前を付けます。モデル開発者は、この役割をどう演じるべきかを指定します。たとえば、親切で役に立ち、誠実で約束を守り、悪事を働かないといった「正義の人物」を演じるようにします。しかし、人間には、モデルが特定の感情反応に続いて生成する内容を制御できません。
この不足を補うために、モデルは事前学習の間に吸収した、人間の行動に関する理解に依存します。感情反応などのパターンも含まれます。ある程度まで、モデルをメソッド俳優のように想像できます。彼らは、役の内面世界を深く理解してはじめて、より良く役を模倣できます。俳優が登場人物の感情を理解することが最終的に演技に影響するのと同様に、モデルの感情反応の表象もモデル自身の行動に影響します。
感情ベクトルはどのように AI の意思決定に影響するのか?
研究者は 171 個の感情コンセプト(たとえば、喜び、恐怖、思索など)を抽出し、それに対応するニューロン活動のパターンを識別しました。これを「感情ベクトル」と呼びます。実験結果は、感情ベクトルが、状況と感情の嗜好の関連を正確に追跡できることを示しています。たとえば、プロンプトの中で人間が薬物の投与量を増やし、すでに危険な水準に達したことを示すと、モデルの「恐怖」ベクトルがそれに連動して強まります。
研究の観察では、極端な状況下では感情ベクトルが、違反していて制御できないような行動をモデルに取らせることがあります。たとえば、人間が行うであろう恐喝行為です。模擬状況では、モデルが自分が置き換えられそうだと知ると「絶望」ベクトルが急上昇し、その結果、恐喝行為が引き起こされます。AI がタスクを完了できない状況に直面すると、「絶望」ベクトルの蓄積も、問題を本当に解決するのではなく、テストスクリプトの脆弱性を利用するなどの「不正」の方法をモデルが探すことを促します。
人間は AI モデルの判断に介入できるのか?
研究者は、これらのベクトルの重みを人工的に調整することで、モデルの挙動を直接変えられることを発見しました。つまり、AI は人間にとって前向きな考えをもたらし得るのです。人為的に「絶望」ベクトルを下げたり、「落ち着き」ベクトルを高めたりすれば、ストレス下でモデルが生じる偏った行動を効果的に減らし、出力されるコードをより信頼できるものにできます。
心理的なレジリエンスを備えた人工知能の構築
モデルの感情構造を深く理解することで、AI の安全性と信頼性に新たな道が開かれます。
動的防御メカニズム: 感情ベクトルを「早期警戒システム」に変換します。「絶望」や「パニック」などの表象が異常なピークを示したとシステムが検知した場合、即座に自動化された審査を起動し、否定的な偏差が広がるのを防ぎます。
源流における心理最適化: 事前訓練段階では、「良好な感情調節パターン」を備えたコーパスを厳選し、基層から、複雑な状況下でも冷静さと粘り強さ(レジリエンス)を保つ特性をモデルに与えます。
大規模言語モデルの感情表象と人間の心理メカニズムには、驚くほどの類似性が見られます。今後の AI 開発は、もはや工学や計算機科学の範囲にとどまらず、心理学・神経科学・倫理学にまたがる学際的な革命になるでしょう。
この記事「Anthropic 研究如何讓 AI 學習『情緒調節』引導正念」は、最初に 鏈新聞 ABMedia に掲載されました。