我在关于人工智能的辩论中注意到一个有趣的悖论:大家都对大型语言模型(LLM)自信流畅的表达感到钦佩。但问题在于——流利的表达并不等于理解。模型可以听起来很有说服力,但这并不意味着它真的理解了什么。



这个悖论让我想起了柏拉图关于洞穴的古老思想。还记得吗?被困者被锁链束缚,只能看到墙上的影子,并将其当作现实,因为他们什么都没见过。其实,语言模型也生活在类似的洞穴中,只不过它们看到的不是影子,而是文本。

继续阅读——这里最有趣。LLM看不到、听不到、触摸不到现实。它们的训练材料是文本:书籍、文章、帖子、评论。这是它们唯一的经验。它们对世界的所有认知,都是通过人类语言的过滤而来。而语言本身并不是现实,而是对现实的表现。是不完整的、偏见的、经常扭曲的。

这就是为什么我对“简单扩大规模就能解决问题”的想法持怀疑态度。更多数据、更多参数——都不能赋予模型真正的理解能力。语言模型擅长预测下一个词,但不理解因果关系、物理限制、行动的实际后果。幻觉(hallucinations)不是可以修补的错误,而是架构本身的结构性限制。

而这时,世界模型(world models)出现了——一种完全不同的方法。这些系统构建关于世界如何运作的内部模型。它们不仅从文本中学习,还通过交互、时间序列、传感器数据、模拟进行学习。它们不再问“下一个词是什么?”,而是问“如果我们这样做,会发生什么?”

这已经在实际应用中实现了。在物流领域,世界模型模拟某个环节的故障如何在整个供应链中传播。在保险行业,它们研究风险随时间的演变,而不仅仅是解释保单。在工厂中,数字孪生预测设备故障。任何需要真正预测能力的场景中,语言模型都显得不足。

有趣的是,许多公司还没有意识到这个转变。他们仍然只投资于LLM,认为这是未来。但未来是混合系统——语言模型成为界面,而世界模型提供真正的理解和规划。

回到柏拉图。被困者的解放不是通过更仔细地研究影子实现的,而是转身面对现实,走出洞穴。人工智能也是如此。那些早早理解这一点的组织,将开始构建真正理解其世界运作方式的系统,而不是只会漂亮地描述它们。

问题是,你的公司能否实现这个转变?能否构建自己的世界模型?因为,做到了的人,将获得巨大的优势。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论