12月17日,图森未来宣布推出“Ruyi”图生视频大模型,并将其Ruyi-Mini-7B版本开放源代码,供用户在huggingface平台下载使用。
Ruyi是基于DiT架构开发的图生视频模型,由两大核心模块构成:
-
Casual VAE模块,负责视频数据的压缩与解压缩过程;
-
Diffusion Transformer模块,负责从压缩数据生成视频。
该模型拥有约7.1亿参数,经过约2亿个视频片段的训练。Ruyi专为在消费级显卡(如RTX 4090)上运行而设计,并配备了部署指南和ComfyUI工作流,以便用户能够迅速掌握。
-
支持多分辨率、多时长视频生成:Ruyi能够生成分辨率从384*384至1024*1024,任意长宽比,最长120帧/5秒的视频。
-
首帧、首尾帧控制视频生成:Ruyi支持基于最多5个起始帧和最多5个结束帧的视频生成,通过循环叠加实现任意长度视频的生成。
-
运动幅度控制:Ruyi提供4档运动幅度调节,使用户能够控制画面变化的程度。
-
镜头控制:Ruyi提供5种镜头控制选项,包括上、下、左、右和静止。
作为图森未来推出的首款“图生视频”模型,Ruyi在手部畸形、多人面部细节失真、转场不可控等方面存在问题,图森未来表示正在积极改进,并计划在未来的更新中修复这些问题。
图森未来强调,公司致力于利用大模型技术缩短动漫和游戏内容的开发周期和降低成本。Ruyi大模型能够实现输入关键帧后生成后续5秒内容,或输入两个关键帧由模型生成中间过渡内容,有效缩短开发周期。在未来的版本中,图森未来将发布两个版本,以满足不同创作者的需求。
Ruyi-Mini-7B的开源链接如下:
[链接]