在人工智能领域,一项具有里程碑意义的研究成果正在引发广泛讨论。加州的非营利研究机构METR近期发布了一项研究,揭示了AI智能体发展速度的惊人规律:在过去六年中,AI能够完成的任务长度每七个月就会翻一番。这一发现被称为AI智能体Scaling Law,它不仅为AI的未来发展提供了一个全新的视角,还可能彻底改变我们对AI实际应用能力的评估方式。
METR的研究人员通过精心设计的170个真实任务,涵盖了编程、网络安全、通用推理和机器学习等多个领域,测量了人类专家完成这些任务所需的时间,从而建立了一条“人类基准线”。基于这些数据,他们发现AI智能体能够完成的任务长度呈现出指数级增长,且每七个月翻一番。如果这一趋势持续下去,五年后,AI智能体将能够独立完成目前需要人类花费数天甚至数周的软件开发任务。更令人震惊的是,到本十年末,前沿AI系统甚至可能自主执行为期一个月的项目。
这一结论无疑具有爆炸性,Nature杂志也迅速采访了研究团队,并发布了一篇相关的报道。METR的研究人员表示,他们进行这项研究的初衷是解决现有AI基准测试的局限性,因为传统基准测试与实际工作的关联较弱,并且随着模型改进容易迅速达到“饱和”。相比之下,这种新方法提供了一个连续的、直观的衡量标准,能够更好地反映有意义的长期进展。
研究人员发现,人类专家完成任务的时间能够有效地预测模型在特定任务上的成功率。例如,当前模型在人类耗时不足4分钟的任务上,几乎能够达到100%的成功率,但在需要人类耗时超过4小时的任务上,成功率则低于10%。由此,研究人员提出用“模型以x%概率成功完成的任务所对应的人类完成时长”来描述模型的能力水平。
这项研究的最大意义在于,它为AI基准评测、发展预测和风险管理提供了新的工具。首先,这种方法提升了基准评测的预测价值,能够在不同能力水平和多样化领域量化模型的进步程度。其次,他们发现的AI发展Scaling Law趋势十分稳健,并且是和实际影响密切相关的。如果未来十年内,AI系统能够自主执行为期一个月的项目,那么它当然会给人类带来巨大的潜在效益,但同时也会带来巨大的潜在风险。
然而,对于这项引起巨大反响的研究,也存在一些质疑的声音。加拿大多伦多大学管理学教授Joshua Gans认为,此类预测的实用价值非常有限。在他看来,虽然推出一条Scaling Law很有诱惑力,但考虑到我们对AI实际应用方式的认知仍然有限,这些预测可能缺乏实际意义。旧金山的AI研究员和企业家Anton Troynikov也指出,虽然任务完成时间跨度是一个评价的有效指标,但可能无法充分反映模型的泛化能力——或许在面对与训练数据不同的任务时,模型的表现就会完全不一样。
METR的研究人员承认,这项方法无法完全涵盖真实工作环境的所有复杂性,但他们强调,在验证任务与实际工作的相似程度时,时间跨度的增长仍然呈现出相似的指数增长趋势。他们也承认,多个因素会影响他们的预测,包括物理限制和经济因素对计算能力的制约,以及未来算法改进的不确定性。不过,他们相信,这种影响会被持续的算法改进所部分抵消,而且未来学术界还会更加增强模型的自主性,提高AI在研究自动化方面的效能,这还会导致更积极的结果。
METR的这项研究为我们提供了一个全新的视角来评估AI的发展趋势和潜在影响。虽然存在一些质疑和不确定性,但这一发现无疑为AI的未来发展带来了新的希望和挑战。