在人工智能领域,Meta公司再次取得突破性进展。根据最新报道,该公司的研究团队于10月19日宣布,他们开发了一系列先进的AI模型,其中包括一个创新的“自我训练评估器”。这一工具的推出,预示着AI开发过程中对人类干预的依赖将进一步减少。这个评估器首次在8月的一篇论文中被提及,它采用了与OpenAI最近发布的o1模型相似的“思维链”技术,通过将复杂问题分解成多个逻辑步骤,显著提升了在科学、编程和数学等高难度领域的答案准确性。
Meta的研究人员通过完全由AI生成的数据来训练这一评估器,实现了在训练过程中彻底排除人类参与。这种使用AI来评估AI的能力,不仅展示了实现自主AI智能体的可能性,而且这类智能体能够从自身的错误中学习,不断进步。Meta的两位项目负责人表示,许多AI专家都期待未来能够开发出“智能化程度极高”的数字助手,这些助手能够独立处理大量任务,无需人类干预。
自我改进的AI模型有望减少目前广泛使用的“基于人类反馈的强化学习”(RLHF)过程的需求。RLHF过程通常成本高昂且效率低下,因为它依赖于具有专业知识的人类来标注数据和验证复杂问题的答案。项目研究员Jason Weston表示:“我们期望,随着AI技术的发展,它能够超越人类,逐渐具备自行检查工作的能力,并在准确性上超越普通人类水平。自我训练和评估的能力是实现超人级AI的关键因素之一。”
据悉,除了Meta,谷歌和Anthropic等其他科技公司也在探索RLAIF(基于AI反馈的强化学习)这一概念,但与Meta不同的是,这些公司通常不会公开发布他们的研究模型。
在此次发布中,Meta还推出了其他AI工具,包括对其图像识别模型“Segment Anything”的更新,一个旨在加速大语言模型响应时间的工具,以及一些有助于发现新型无机材料的数据集。这些工具的推出,进一步证明了Meta在推动AI技术发展方面的领导地位。