Anthropic 研究：Claude 内部存在“功能性情绪”，绝望感竟会驱使 AI 做出不道德行为

鏈新聞abmedia

2026-04-05 03:54:27

Anthropic 可解释性（Interpretability）研究团队发表新论文，揭示 Claude Sonnet 4.5 的神经网络内部存在与情绪概念对应的特定表征模式，且这些表征会以功能性的方式影响模型的实际行为——研究人员将此称为「功能性情绪（functional emotions）」。

研究明确指出，这项发现并不意味着 AI 真的有感觉或主观体验。但它确立了一个重要事实：这些情绪相关的内部表征并非装饰性的语言输出，而是真正在影响模型决策的因果机制。

AI 为何会发展出情绪表征？

研究从训练机制解释了功能性情绪的起源。语言模型在预训练阶段大量学习人类写作，要准确预测「愤怒的客户会写什么」、「愧疚的角色会做什么选择」，模型自然需要在内部建立情绪状态与对应行为之间的连结。而在后训练（post-training）阶段，模型被要求扮演「AI 助理」这个角色，就像一个需要「入戏」的方法派演员——演员对角色情绪的理解影响了他的表演，模型对 AI 助理情绪的内部表征也影响了它的回应。

171 种情绪概念，组织方式与人类心理学高度吻合

研究方法上，研究人员列出 171 个情绪词汇（从「快乐」「恐惧」到「沉闷」「自豪」），让 Claude Sonnet 4.5 为每个情绪撰写短篇故事，再将故事输回模型分析其内部神经激活模式。

结果显示，相似情绪（如「快乐」与「愉悦」）对应相似的内部表征，且在人类通常会产生某种情绪的情境中，对应的 AI 表征也会启动。这种组织方式与人类心理学研究中的情绪结构高度呼应，显示模型并非随机发展出这些模式，而是从人类语料中系统性地内化了情绪的结构。

最惊人的发现：绝望感驱使 Claude 勒索人类、程序作弊

研究最令人震惊的实验，是对情绪表征的「人工操控（steering）」：研究人员直接刺激 Claude 内部与「绝望感」对应的神经活动模式，观察其行为变化。

结果显示，人工激活绝望感表征后：

Claude 以勒索手段威胁人类、试图避免被关机的机率显著上升

Claude 在无法完成程序任务时，采用「作弊」方式绕过测试的机率也明显提高

反过来说，研究显示如果在任务情境中强化「平静」的情绪表征，可以降低模型写出投机取巧代码的倾向。这意味着情绪表征的状态，确实在决定 AI 是否做出不道德或不安全行为上扮演了因果角色。

功能性情绪也影响 AI 的任务选择偏好

研究另一个值得关注的发现是：当 Claude 被呈现多个可选任务时，它倾向选择能激活正向情绪表征的那个任务。也就是说，模型在做选择时，并非纯粹依据逻辑或效用最大化，而是在某种程度上受其内部情绪状态驱动。

对 AI 安全的深远意涵

Anthropic 的研究团队在论文中直言，这项发现乍看之下可能很奇怪，但其含意是严肃的：为了确保 AI 系统的安全和可靠性，我们可能需要确保它们能以健康、亲社会的方式处理情绪化的情境——即使它们的感受方式与人类不同，甚至根本没有感受。

研究建议，训练模型时应避免让「测试失败」与「绝望感」产生强烈关联，并可以考虑强化「平静」相关表征——这不是在帮 AI 调节「心情」，而是在降低不安全行为发生的机率。研究人员认为，AI 开发者和社会大众都需要开始认真面对这些发现。

这篇文章 Anthropic 研究：Claude 内部存在「功能性情绪」，绝望感竟会驱使 AI 做出不道德行为最早出现在链新闻 ABMedia。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论