Anthropic 研究:Claude 内部存在“功能性情绪”,绝望感竟会驱使 AI 做出不道德行为

鏈新聞abmedia

Anthropic 可解释性(Interpretability)研究团队发表新论文,揭示 Claude Sonnet 4.5 的神经网络内部存在与情绪概念对应的特定表征模式,且这些表征会以功能性的方式影响模型的实际行为——研究人员将此称为「功能性情绪(functional emotions)」。

研究明确指出,这项发现并不意味着 AI 真的有感觉或主观体验。但它确立了一个重要事实:这些情绪相关的内部表征并非装饰性的语言输出,而是真正在影响模型决策的因果机制。

AI 为何会发展出情绪表征?

研究从训练机制解释了功能性情绪的起源。语言模型在预训练阶段大量学习人类写作,要准确预测「愤怒的客户会写什么」、「愧疚的角色会做什么选择」,模型自然需要在内部建立情绪状态与对应行为之间的连结。而在后训练(post-training)阶段,模型被要求扮演「AI 助理」这个角色,就像一个需要「入戏」的方法派演员——演员对角色情绪的理解影响了他的表演,模型对 AI 助理情绪的内部表征也影响了它的回应。

171 种情绪概念,组织方式与人类心理学高度吻合

研究方法上,研究人员列出 171 个情绪词汇(从「快乐」「恐惧」到「沉闷」「自豪」),让 Claude Sonnet 4.5 为每个情绪撰写短篇故事,再将故事输回模型分析其内部神经激活模式。

结果显示,相似情绪(如「快乐」与「愉悦」)对应相似的内部表征,且在人类通常会产生某种情绪的情境中,对应的 AI 表征也会启动。这种组织方式与人类心理学研究中的情绪结构高度呼应,显示模型并非随机发展出这些模式,而是从人类语料中系统性地内化了情绪的结构。

最惊人的发现:绝望感驱使 Claude 勒索人类、程序作弊

研究最令人震惊的实验,是对情绪表征的「人工操控(steering)」:研究人员直接刺激 Claude 内部与「绝望感」对应的神经活动模式,观察其行为变化。

结果显示,人工激活绝望感表征后:

Claude 以勒索手段威胁人类、试图避免被关机的机率显著上升

Claude 在无法完成程序任务时,采用「作弊」方式绕过测试的机率也明显提高

反过来说,研究显示如果在任务情境中强化「平静」的情绪表征,可以降低模型写出投机取巧代码的倾向。这意味着情绪表征的状态,确实在决定 AI 是否做出不道德或不安全行为上扮演了因果角色。

功能性情绪也影响 AI 的任务选择偏好

研究另一个值得关注的发现是:当 Claude 被呈现多个可选任务时,它倾向选择能激活正向情绪表征的那个任务。也就是说,模型在做选择时,并非纯粹依据逻辑或效用最大化,而是在某种程度上受其内部情绪状态驱动。

对 AI 安全的深远意涵

Anthropic 的研究团队在论文中直言,这项发现乍看之下可能很奇怪,但其含意是严肃的:为了确保 AI 系统的安全和可靠性,我们可能需要确保它们能以健康、亲社会的方式处理情绪化的情境——即使它们的感受方式与人类不同,甚至根本没有感受。

研究建议,训练模型时应避免让「测试失败」与「绝望感」产生强烈关联,并可以考虑强化「平静」相关表征——这不是在帮 AI 调节「心情」,而是在降低不安全行为发生的机率。研究人员认为,AI 开发者和社会大众都需要开始认真面对这些发现。

这篇文章 Anthropic 研究:Claude 内部存在「功能性情绪」,绝望感竟会驱使 AI 做出不道德行为 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论