AI 玩语言游戏升级自己，谷歌 DeepMind 带来苏格拉底学习法

在人工智能领域，一项革命性的研究引起了全球的关注。谷歌DeepMind的最新成果，提出了一种名为“苏格拉底式学习”（Socratic Learning）的全新方法，让AI在没有外部数据输入的情况下，也能实现自我进化和能力提升。

这项研究的核心在于，一个在封闭系统中训练的智能体，只要满足三个关键条件，就能掌握任何所需的技能：首先，智能体需要接收到足够信息量和一致性的反馈；其次，它必须有广泛的经验或数据覆盖；最后，智能体必须具备足够的能力和资源。

苏格拉底式学习的核心机制是语言游戏，这是一种结构化的互动方式，智能体通过交流、解决问题，并以分数形式获得反馈。在这一过程中，AI能够在封闭系统中自我游戏、生成数据，并以此提升自身能力，无需人工干预。如果AI对现有游戏感到厌倦，它甚至能够创造新游戏，从而解锁更高层次的抽象技能。

这种方法打破了固定架构的限制，使得AI的表现能够远远超出其初始数据和知识，其发展仅受时间的限制。在一个随时间演变的封闭系统中，智能体（agent）会随着时间的推移而变化，而外部的观察者则负责评估智能体的性能。由于系统是封闭的，观察者的评估无法反馈到系统中，因此智能体的学习反馈必须来自系统内部，如损失、奖励函数、偏好数据或批评者。

苏格拉底式学习消除了固定架构的局限，使得AI的表现能够远超其初始数据和知识，且仅受时间的限制。自我提升的一个典型例子是自我博弈，系统让智能体作为游戏的双方，从生成一个无限的体验流，并带有获胜反馈，来指导学习的方向。

在这种学习模式下，反馈是关键。在封闭系统中，真正的目标是由外部观察者定义的，但反馈只能来自系统内部的代理。这对于系统来说是一个挑战：如何确保反馈与观察者的目标保持一致，并在整个过程中保持一致。

与输出仅影响输入分布的一般情况相比，递归的自我提升更具限制性，但中介作用更少，最常见的是将智能体输出映射到输入的环境实例化。这种类型的递归是许多开放式流程的一个属性，而开放式改进正是ASI（人工超级智能）的一个核心特征。

输入和输出空间兼容的一个例子是语言。人类的广泛行为都是由语言介导的，特别是在认知领域。语言的一个相关特征是它的可扩展性，即可以在现有语言中开发新的语言，比如在自然语言中开发的形式数学或编程语言。

苏格拉底式学习，模仿了苏格拉底通过提问、对话和重复的语言互动，来寻找或提炼知识的方法。苏格拉底并没有去外界收集现实世界中的观察结果，这也符合本文强调的封闭系统。

在自我提升的三个必要条件中，覆盖率和反馈原则上适用于苏格拉底式学习，并且是不可简化的。从长远角度来看，如果计算和内存保持指数级增长，那么规模限制只是一个暂时的障碍。另一方面，即使是资源受限的场景，苏格拉底式学习可能仍会产生有效的高级见解。

覆盖率意味着苏格拉底式学习系统必须不断生成数据（语言），同时随着时间的推移保持或扩大多样性。生成对于LLM来说是小菜一碟，难的是在递归过程中防止漂移、崩溃或者生成分布不够广泛。

反馈要求系统继续产生关于智能体输出的反馈，这在结构上需要一个能够评估语言的批评者，且应与观察者的评估指标保持充分一致。然而，语言空间中定义明确的指标通常仅限于特定的任务，而AI反馈则需要更通用的机制，尤其是在允许输入分布发生变化的情况下。

目前的LLM训练范式都没有足以用于苏格拉底式学习的反馈机制。比如下一个标记预测损失，与下游使用情况不一致，并且无法推断训练数据之外的情况。根据定义，人类的偏好是一致的，但无法在封闭系统的学习中使用。将人类偏好缓存到学习的奖励模型中或许可行，但从长远来看，可能会产生错位，并且在分布外的数据上效果也很弱。

换句话说，纯粹的苏格拉底式学习是可能的，但需要通过强大且一致的批评者生成广泛的数据。当这些条件成立时，这种方法的上限就只取决于能够提供的计算资源。

语言、学习和基础是经过充分研究的话题。其中一个特别有用的概念是哲学家Wittgenstein提出的「语言游戏」。对他来说，捕捉意义的不是文字，而需要语言的互动性质才能做到这一点。具体来说，将语言游戏定义为交互协议（一组规则，可以用代码表达），指定一个或多个智能体（玩家）的交互，这些智能体具有语言输入和输出，以及在游戏结束时每个玩家的标量评分函数。

这样定义的语言游戏解决了苏格拉底式学习的两个主要需求：为无限的交互式数据生成提供了一种可扩展的机制，同时自动提供反馈信号（分数）。从实用的角度来看，游戏也是一个很好的入门方式，因为人类在创造和磨练大量游戏和玩家技能方面有着相当多的记录。

实际上，许多常见的LLM交互范式也能被很好地表示为语言游戏，例如辩论、角色扮演、心智理论、谈判、越狱防御，或者是在封闭系统之外，来自人类反馈的强化学习。Wittgenstein曾表示，他坚决反对语言具有单一的本质或功能。

相比于单一的通用语言游戏，使用许多狭义但定义明确的语言游戏的优势在于：对于每个狭义的游戏，都可以设计一个可靠的分数函数（或评论家），这对于通用游戏来说非常困难。从这个角度来看，苏格拉底式学习的整个过程就是一个元游戏，一个安排了智能体玩和学习的语言游戏（一个「无限」的游戏）。

苏格拉底因「腐蚀青年」而被判处死刑并被处决。这也意味着，苏格拉底过程并不能保证与外部观察者的意图保持一致。语言游戏作为一种机制也没有回避这一点，但它所需要的不是在单个输入和输出的细粒度上对齐的批评家，而是一个可以判断应该玩哪些游戏的「元批评家」：根据是否对整体性能有贡献来过滤游戏。

此外，游戏的有用性不需要先验评估，可以在玩了一段时间后事后判断，毕竟事后检测异常可能比设计时阻止要容易得多。那么问题来了，如果从苏格拉底和他的弟子开始，数千年来一直不受干扰地思考和改进，到现在会产生什么样的文化产物、什么样的知识、什么样的智慧？

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复