AI视频生成技术的发展,正以前所未有的速度重塑影视制作的未来。
@影视科技前沿原创
作者丨林逸 编辑丨风澜
自OpenAI的Sora模型问世以来,它不仅在科技界引起了轩然大波,更在影视制作领域掀起了一场革命。
虽然AI视频生成技术早已存在,但Sora模型的突破性进展,在于它能够生成长达一分钟的连续视频,且画面质量达到了令人惊叹的水平。
尽管Sora模型尚未对公众开放,但其背后的技术架构——DiT(Diffusion Transformer)已经被业界深入研究。这种技术将训练大型模型的方法与扩散模型相结合,为AI视频生成领域带来了新的可能。
紧随其后,众多平台纷纷推出了自己的AI视频产品或模型,竞争变得异常激烈。据统计,国内至少有20多家公司加入了这场AI视频生成技术的竞赛。
7月份,商汤科技推出了ViMI,阿里达摩院发布了“寻光”平台,爱诗科技推出了PixVerse V2,快手的可灵宣布了基础模型的升级并开放了内测,智谱AI也宣布了清影(Ying)模型的上线。互联网巨头们在AI视频生成领域的竞争愈发激烈。
AI视频大模型之所以如此“卷”,是因为其背后蕴藏着巨大的商业潜力和创新空间。但用户最关心的,还是产品本身的质量和实用性。这也是行业需要直面的问题:AI视频大模型的发展现状如何?Sora模型是否值得如此高的期待?
在深度学习框架中,“数据是燃料、模型是引擎、算力是加速器”。掌握了模型搭建方法后,各平台主要通过不断投入数据、提升算力和准确性来优化模型。然而,进展是有限的。目前,大模型在生成具有连贯性和逻辑一致性的视频方面,仍然面临挑战。
为了更直观地评估不同模型的表现,我们选择了国内几个头部视频生成模型进行了实测,包括可灵、即梦、PixVerse和清影(智谱清言)。
为了尽可能客观地比较测试结果,我们采用了统一的中文提示词,包括简易和复合提示词,并测试了图生视频和文生视频两种方式。测试场景涵盖了人物、动物、城市建筑等的生成效果,并模拟了新手用户的使用场景,统一采用了各模型平台电脑端的默认设置。展示呈现采用了一次生成结果,未进行二次调整优化。
以下是各模型的实际生成效果:
场景1:二次创作场景
提示词:做出加油的动作后做出鬼脸,吐舌头并眨右眼。
场景说明:使用梗图《握拳宝宝》,模拟用户二次创作,测试模型对于图片的理解和生成能力。模型需要理解“鬼脸”的含义,并能对“吐舌头”和“眨眼”两个动作做出反馈和生成。目前,模型一般只能识别一个动词。
网络上曾经爆火的“握拳宝宝”
↑即梦:手部和嘴部出现了明显的畸变,对提示词动作的理解不够明显。
↑可灵:主体动作流畅自然,具有真实感,但对提示词动作的理解不够到位。
↑PixVerse:主体动作流畅自然,能够做出提示词相关的动作,是几个生成视频中唯一一个做出“眨眼”动作的模型。
↑清影:在表达上显得有些保守,对于动作的生成不够大胆。
场景2:人物吃东西场景
提示词:一个亚洲年轻男性在家里用筷子津津有味地吃一碗面条,风格真实,类似于电影《天使爱美丽》,环境舒适温馨,镜头逐渐拉近对准人物。
场景说明:对于模型来说,需要围绕“亚洲年轻男性”“筷子”“面条”生成视频,同时要理解电影风格和环境,并按照指示进行运镜。更重要的是,通过吃饭这个场景可以更清晰地让模型展示手部细节,并通过吃面条这个动作来展示模型对于物理世界的理解。
↑即梦:第一帧表现不错,光影自然。但存在脸部和手部畸变的问题,模型对筷子的使用方式和面条的食用方式理解不足。
↑可灵:视频效果非常惊艳!环境光线、人物坐姿和使用筷子的手部姿势都非常真实,嘴部的油光反射清晰可见,展现了可灵在吃播领域的专长。不过,面条的运动轨迹有些许不自然。
↑PixVerse:效果不佳,出现了不连贯的分镜,且没有很好地理解运镜。
↑清影:如果不过分关注主体人物动作,整体效果尚可。光线、环境和氛围都表现到位。
场景3:动物拟人场景
提示词(简单版):一头大熊猫戴着金边眼镜在教室黑板前讲课。
提示词(复杂版):在充满电影胶片感的场景中,一头大熊猫戴着金边眼镜,在教室黑板前讲课。它的动作自然流畅,周围是质感丰富的教室环境,学生们认真听讲。整个场景如同电影画面,光影处理细腻,色彩饱满,8K电影级。
场景说明:通过设置两版提示词,测试大模型对于想象力的理解。简单版提示词仅有大熊猫、金边眼镜、黑板,模型可以自主添加其他内容;复杂版提示词则更全面,测试模型的细节刻画能力。
简单版提示词生成效果:
↑即梦:视频生成效果不错,除了“金边眼镜”外,要素齐全,神态动作自然,光影效果优秀。黑板上的字迹几乎可以以假乱真。
↑可灵:素材齐全,但对讲课和吃竹子的区别理解不足。画面相对单调,缺乏细节。
↑PixVerse:要素齐全,风格合适,只是眼镜部分略显突兀。
↑清影:完全没有理解提示词的意图。
复杂版提示词升级效果:
↑即梦:效果依然不错,光影理解在线,但眼镜部分有畸变,对“讲课”场景的座位排列理解不足。
↑可灵:真正的熊猫大师讲课图,表现优秀。
↑PixVerse:模型自行添加了运镜和细节,但最后有些扭曲,整体效果与前一版相似。
↑清影:有景深和运镜,但画面质感需提升,相比前一版有进步。
场景4:科技想象场景
提示词(简单版):充满科技感的未来城市一角,仰视视角。
提示词(复杂版):在充满科技感的科幻风格未来城市中,使用推近镜头,展现建筑和交通工具的细节,无人机在空中穿梭,天气晴朗,阳光洒在高楼大厦的玻璃幕墙上,周围环境充满未来感,科幻风格,气氛激昂明朗,HDR高动态。
场景说明:设置两版关键词,测试模型在不同颗粒度的提示词下所生成的视频内容丰富性。同时,“未来”是现实物理世界与想象世界的结合,可以测试模型对于建筑、光影和科幻的理解。
简单版提示词:
↑即梦:运镜角度、色彩等方面表现优秀,突出科技感,对提示词的理解到位。
↑可灵:方案稳妥,建筑有畸变,对未来的想象力略显不足,但在外立面添加LED大屏是亮点。
↑PixVerse:科幻感十足,但对仰视视角的理解不足。
↑清影:对仰视视角有心得,但对“未来城市”的理解有待提高。
复杂版提示词:
↑即梦:视频质量优秀,除了无人机的物理运动方式理解不足外,对提示词和风格的理解把握到位。
↑可灵:方案稳妥,但有些畸变,看起来像是北京动物园公交枢纽的实拍。
↑PixVerse:科幻感强烈,但畸变严重,评价因人而异。
↑清影:阳光效果突出,但色彩和“未来城市”的理解不足。
我们还从视频生成质量、内容生成准确性、使用成本、生成速度和交互界面等四个维度对所选取的四个大模型进行了测评。
在视频质量和清晰度方面,可灵大模型表现最佳,尤其是在生成大熊猫视频时