人工智能的能源消耗一直是科技领域关注的焦点。据悉,像ChatGPT这样的大型AI模型,其单日的电力消耗就高达50万度,这相当于美国1.7万个家庭的日常用电量。而根据国际能源署的预测,数据中心的电力需求在接下来的几年内还将翻倍增长。在AI计算需求不断增长的背后,是对水资源的巨大需求,微软的用水量在短短一年内就激增了34%,而ChatGPT处理少量提示就需要消耗近半升水。面对这一挑战,谷歌DeepMind的研究团队提出了一种新的AI训练方法——联合示例选择(JEST),这一方法显著降低了AI训练所需的计算资源和时间,实现了与现有最先进模型相比13倍的迭代次数减少和10倍的计算量降低。
JEST技术的核心在于利用预训练的参考模型,这些模型已经学会了识别哪些数据是“优质”或“有用”的,并通过模型引导数据选择,从而实现对小型精选数据集的高效利用。这一发现为评估神经网络的扩展性提供了一个新的维度,即数据筛选的水平。网友们对此表示了极大的兴奋,认为模型能够自主选择训练数据的能力是巨大的,因为它使训练过程变得更加容易,不再需要猜测什么是高质量的训练数据,而是有一个能够“理解”哪些数据对自身学习最有价值的模型。
JEST技术通过从大型数据集中筛选出高质量的子集来进行训练,这一过程类似于从“超级批次”中挑选出“子批次”。在数学上,这可以被描述为从大小为B的“超级批次”𝒟中提取与学习最相关的子批次ℬ={𝒙𝑖,𝑖∈[1,…,𝑏]}⊂𝒟,其中过滤比率可以表示为𝑓=1−𝑏/𝐵。JEST算法直接对整个子批次进行评分,然后根据批次级别的分数进行采样,而不是像以前的优先采样方法那样基于模型的评分函数对每个数据点单独打分。
JEST算法的一个直观启发式方法是选择在现有模型参数下损失值最高的批次,这种方法被称为“硬学习”。然而,这种方法虽然理想地能够丢弃琐碎数据,但在大型、较少管理的数据集上可能会带来问题,因为它可能会采样到噪声数据。另一种方法是使用预训练的参考模型进行采样,但这种方法可能过度依赖参考模型的选择,并且不易扩展。
为了解决这些问题,JEST采用了一种结合硬学习和易参考评分的方法,即“可学习性评分”。这种方法结合了硬学习评分和易参考评分,通过计算模型当前参数和参考模型参数下损失值的差异来确定批次的优先级。实验表明,使用JEST算法可以在大大减少计算量的同时,显著提高训练效率。
此外,JEST算法还采用了在线模型近似和多分辨率训练技术,进一步提高了评分过程和训练的效率。通过这些技术,JEST能够在保持性能的同时,显著降低训练所需的计算资源和时间。
在WebLI数据集上的实验结果表明,JEST算法在多个下游任务上都取得了显著的性能提升。即使在考虑到额外的打分成本,JEST算法也有近10倍的FLOP效率提升。此外,JEST算法还显示出了强大的数据质量引导能力,即使是在未经管理的大规模数据集上,也能通过使用小型、精选的参考数据集来指导学习。
尽管JEST方法在提高训练效率和降低计算成本方面取得了显著的成果,但它仍然依赖于小型、精心管理的参考数据集。未来的工作可能会探索如何从指定的下游任务中推断出参考数据集的组成和分布,以进一步提高JEST方法的适用性和效率。