近日,北京智源人工智能研究院(BAAI)宣布了一项重大突破,推出了名为OmniGen的新型扩散模型,这一模型标志着图像生成领域的一大步进。OmniGen以其多模态能力,致力于实现图像生成任务的统一化处理。
据BAAI介绍,OmniGen模型主要具备三大核心优势:
-
多功能集成:OmniGen不仅能够执行基于文本的图像生成,还能无缝支持图像编辑、主题驱动的图像生成以及视觉条件生成等多种下游任务。更进一步,OmniGen能够将传统的计算机视觉任务转化为图像生成问题,扩展了其应用范围。
-
架构精简:OmniGen的模型设计去除了不必要的复杂性,相较于市场上的其他模型,它更为简洁,用户操作更为便捷。它能够直接通过指令执行复杂任务,省去了额外的预处理步骤和专用模块,极大提升了图像生成的效率和易用性。
-
知识跨界应用:得益于统一的学习格式,OmniGen能够灵活地在不同任务间迁移知识,有效处理未曾接触过的任务和领域,并展现出前所未有的新功能。研究团队还探索了该模型在图像生成中的推理能力和思维链机制的应用潜力。
更多相关信息可以通过以下链接获取:
-
研究论文:https://arxiv.org/pdf/2409.11340
-
开源代码:https://github.com/VectorSpaceLab/OmniGen
-
模型演示:https://huggingface.co/spaces/Shitao/OmniGen