8月24日,Meta AI公司宣布了其最新技术突破——Transfusion方法,这是一种创新的AI技术,将语言模型与图像生成技术完美融合。
根据团队的详细介绍,Transfusion技术巧妙地结合了语言模型在处理文本等离散数据上的优势,以及扩散模型在生成连续数据如图像方面的强大能力。
Meta公司指出,传统的图像生成技术依赖于预先训练的文本编码器来解读输入的提示词,再与独立的扩散模型结合以生成图像。
多模态语言模型的工作机制也大致相同,它们通常将预训练的文本模型与特定模态的编码器相结合。
然而,Transfusion技术采用了一种统一的Transformer架构,这种架构能够同时处理所有类型的数据,通过端到端的训练方式,对文本和图像数据进行整合训练。在这一过程中,文本和图像采用了不同的损失函数,文本使用下一个标记预测,而图像则采用扩散方法。
为了实现文本与图像的同时处理,Transfusion技术将图像转化为一系列图像片段,使得模型能够在一个序列中同时处理文本标记和图像片段。此外,特殊的注意力掩码技术使得模型能够捕捉并理解图像内部的复杂关系。
与Meta公司现有的Chameleon技术不同,Transfusion技术保留了图像的连续性,避免了因量化而造成的数据损失。
实验结果表明,Transfusion技术在图像生成方面展现出了与专业模型相媲美的性能,同时在计算效率上实现了显著提升。更令人瞩目的是,整合图像数据后,文本处理能力也得到了增强。
研究人员在一个包含2万亿个文本和图像标记的数据集上,训练了一个拥有70亿参数的模型。该模型不仅在图像生成方面达到了与DALL-E 2等成熟系统相似的水平,还能够高效处理文本数据。
这一技术的推出,无疑为AI领域带来了新的活力,预示着未来在多模态数据处理上的无限可能。