科技界再次传来令人振奋的消息。据科技媒体The Decoder于10月22日的报道,谷歌DeepMind团队与麻省理工学院(MIT)的研究人员合作,推出了一款名为“Fluid”的新型模型。这一模型在参数规模达到105亿时,展现出了卓越的文生图(text-to-image)生成能力。
在文生图技术领域,扩散模型因其生成图像的高质量而受到青睐,而自回归模型则因其依赖于序列中前一个元素来预测下一个元素的特性,通常被认为稍逊一筹。
让我们简要了解一下这两种模型:
-
扩散模型(Diffusion Models):这是一种新兴的内容生成技术,它通过模拟信号从噪声中逐渐恢复的过程来生成图像、文本等数据。例如,DDPM(离散扩散概率模型)及其衍生模型在图像生成领域引起了广泛关注。
-
自回归模型(Autoregressive Models):这类模型在预测序列中的下一个元素时,依赖于序列中前面的元素。在文本生成领域,基于Decoder-only的GPT系列模型(例如GPT-3、GPT-4)就是自回归模型的代表,它们通过逐词预测来生成连贯的文本。
然而,谷歌DeepMind和MIT的团队通过深入研究,发现了两个关键的设计因素:使用连续tokens而非离散tokens,以及采用随机生成顺序而非固定顺序,这两个因素显著提升了自回归模型的性能和可扩展性。
研究团队指出,离散tokens在为图像区域分配来自有限词汇的代码时会导致信息丢失,而连续tokens能够更精确地存储图像信息,从而减少信息丢失,使得模型能够更准确地重建图像,提升视觉质量。
此外,大多数自回归模型都是以固定顺序生成图像,但Fluid模型采用了随机生成顺序,这使得模型能够在每一步预测任意位置的多个像素,从而在理解整体图像结构方面表现得更为出色。
结合了连续tokens和随机生成顺序的Fluid模型,在参数规模扩大到105亿时,在重要的基准测试中超越了Stable Diffusion 3扩散模型和谷歌之前的Parti自回归模型。
与拥有200亿参数的Parti相比,参数规模仅为3.69亿的小型Fluid模型在MS-COCO上达到了相同的7.23 FID分数,显示出了显著的性能提升。