最新消息,12月20日,Meta公司联合华盛顿大学和卡内基梅隆大学的研究团队,共同研发了ExploreToM框架,这一创新成果旨在提升大型语言模型(LLM)在心智理论(Theory of Mind,简称ToM)方面的表现。
心智理论是人类社会智能的核心组成部分,它使我们能够洞察他人的内心世界,包括他们的想法、意图和信仰。这种能力对于实现有效的沟通和协作至关重要,是复杂社交互动的基石。
赋予AI心智理论的能力,对于开发能够与人类无缝交流的智能系统至关重要。然而,目前的大型语言模型在ToM领域仍面临重大挑战。
现有的评估基准往往缺乏必要的复杂性和多样性,这导致模型的实际能力被高估。许多测试基于简单的预设场景,无法复现人类在推断心理状态时所依赖的复杂推理过程。
ExploreToM框架通过创建多样化、可扩展的对抗性数据集,为AI的ToM能力提升提供了坚实的基础。研究指出了当前模型的不足,并强调了高质量训练数据在缩小这些差距中的重要性。
在数据集构建方面,ExploreToM采用A*搜索算法和特定领域的语言生成技术,生成多样化且难度较高的测试数据集,模拟复杂的社会场景,挑战LLM的认知极限。
与现有的基准测试不同,ExploreToM通过构建对抗性故事场景,旨在揭示LLM在ToM推理中的弱点。此外,该框架还引入了非对称信念更新机制,模拟了在复杂社交互动中不同角色对同一情况持有不同观点的情况。
在主流模型的测试中,GPT-4o和Llama-3.1-70B在ExploreToM数据集上的准确率分别仅为9%和0%,这凸显了现有LLM在处理复杂的ToM推理时的不足。
经过在ExploreToM数据集上的微调,模型在经典的ToMi基准测试中的准确率提高了27个百分点,证明了该框架的有效性。