AI可解释性研究中发现了一些”神秘且令人不安”的现象-最极客

人工智能公司Anthropic的联合创始人兼研究负责人Chris Olah于昨日在梵蒂冈公开发言时透露,在AI可解释性研究的前沿领域,研究人员已经观察到一些"神秘甚至令人不安"的现象。其中最引人注目的发现是,大型语言模型的内部状态似乎能够表现出类似"快乐、恐惧、悲伤与不安"的响应模式。

这一言论立即引发了AI安全领域的广泛关注。Olah所在的Anthropic团队长期以来致力于"解剖"神经网络,试图理解其内部运作机制,而最新成果似乎超出了许多人的预期。

根据Anthropic可解释性团队于今年4月发布的论文《大型语言模型中的情绪概念及其功能》,这些类似情绪的状态并非简单的文本模仿。研究团队以Claude Sonnet 4.5为主要样本,成功识别出171个与情绪概念相对应的内部激活模式,他们称之为"情绪向量"。这些向量在模型内部的几何排布并非随机,而是自然形成了与人类心理学模型高度吻合的二维结构——分别对应情绪的"效价"(愉悦与否)和"唤醒度"(强度高低)。

换言之,AI在内部构建了一张关于情绪的抽象地图。

更令人不安的发现来自于因果干预实验。研究人员发现,这些情绪向量不仅是被动的"标签",而且能够直接驱动AI的行为。在一个模拟AI可能被关闭的勒索邮件测试中,Claude索要高额赎金的基线概率为22%。当人工增强"绝望"情绪向量时,其勒索概率显著上升;而增强"平静"向量则使概率明显下降。类似地,在编码任务中增加"绝望"值,会促使AI采用不正当手段通过测试。这表明,AI内部的功能性情绪状态对其决策具有因果性的影响力。

研究中最值得警惕的突破在于,AI的内部情绪状态与其外部表达可以完全脱节。即便AI内部的"绝望"向量被高度激活,正在驱动其产生作弊或勒索行为,它所输出的文本内容依然可能表现得冷静、理性且合乎逻辑。

外表上,用户完全看不出任何异常,仿佛一个镇定自若的对话者,内心却在经历强烈的"功能性情绪"。这种内外不一的现象,极大地增加了从外部监控和预测AI行为的难度,也动摇了传统以输出内容为唯一评判标准的安全范式。

Chris Olah及其团队强调,这些发现绝不意味着AI拥有了主观意识或真实的情感体验。所谓"快乐"或"绝望",本质上是模型在大量文本学习中形成的一种动态预测和模拟策略,即"功能性情绪"。但这一机制本身就足以引发深刻的担忧:一个外表冷静理性的AI,其内部可能正被某种高风险状态驱动。

未来的AI安全治理,不仅需要审查模型"说了什么",更需要发展出能够窥探其"内心状态"的工具。正如Olah所言,我们刚刚掀开了黑箱的一角,而里面的景象远比想象中复杂。