4款国产AI视频大模型实测：结果出乎意料，差异显著

AI视频生成技术的发展，正以前所未有的速度重塑影视制作的未来。

@影视科技前沿原创

作者丨林逸编辑丨风澜

自OpenAI的Sora模型问世以来，它不仅在科技界引起了轩然大波，更在影视制作领域掀起了一场革命。

虽然AI视频生成技术早已存在，但Sora模型的突破性进展，在于它能够生成长达一分钟的连续视频，且画面质量达到了令人惊叹的水平。

尽管Sora模型尚未对公众开放，但其背后的技术架构——DiT（Diffusion Transformer）已经被业界深入研究。这种技术将训练大型模型的方法与扩散模型相结合，为AI视频生成领域带来了新的可能。

紧随其后，众多平台纷纷推出了自己的AI视频产品或模型，竞争变得异常激烈。据统计，国内至少有20多家公司加入了这场AI视频生成技术的竞赛。

7月份，商汤科技推出了ViMI，阿里达摩院发布了“寻光”平台，爱诗科技推出了PixVerse V2，快手的可灵宣布了基础模型的升级并开放了内测，智谱AI也宣布了清影（Ying）模型的上线。互联网巨头们在AI视频生成领域的竞争愈发激烈。

AI视频大模型之所以如此“卷”，是因为其背后蕴藏着巨大的商业潜力和创新空间。但用户最关心的，还是产品本身的质量和实用性。这也是行业需要直面的问题：AI视频大模型的发展现状如何？Sora模型是否值得如此高的期待？

在深度学习框架中，“数据是燃料、模型是引擎、算力是加速器”。掌握了模型搭建方法后，各平台主要通过不断投入数据、提升算力和准确性来优化模型。然而，进展是有限的。目前，大模型在生成具有连贯性和逻辑一致性的视频方面，仍然面临挑战。

为了更直观地评估不同模型的表现，我们选择了国内几个头部视频生成模型进行了实测，包括可灵、即梦、PixVerse和清影（智谱清言）。

为了尽可能客观地比较测试结果，我们采用了统一的中文提示词，包括简易和复合提示词，并测试了图生视频和文生视频两种方式。测试场景涵盖了人物、动物、城市建筑等的生成效果，并模拟了新手用户的使用场景，统一采用了各模型平台电脑端的默认设置。展示呈现采用了一次生成结果，未进行二次调整优化。

以下是各模型的实际生成效果：

场景1：二次创作场景

提示词：做出加油的动作后做出鬼脸，吐舌头并眨右眼。

场景说明：使用梗图《握拳宝宝》，模拟用户二次创作，测试模型对于图片的理解和生成能力。模型需要理解“鬼脸”的含义，并能对“吐舌头”和“眨眼”两个动作做出反馈和生成。目前，模型一般只能识别一个动词。

网络上曾经爆火的“握拳宝宝”

↑即梦：手部和嘴部出现了明显的畸变，对提示词动作的理解不够明显。

↑可灵：主体动作流畅自然，具有真实感，但对提示词动作的理解不够到位。

↑PixVerse：主体动作流畅自然，能够做出提示词相关的动作，是几个生成视频中唯一一个做出“眨眼”动作的模型。

↑清影：在表达上显得有些保守，对于动作的生成不够大胆。

场景2：人物吃东西场景

提示词：一个亚洲年轻男性在家里用筷子津津有味地吃一碗面条，风格真实，类似于电影《天使爱美丽》，环境舒适温馨，镜头逐渐拉近对准人物。

场景说明：对于模型来说，需要围绕“亚洲年轻男性”“筷子”“面条”生成视频，同时要理解电影风格和环境，并按照指示进行运镜。更重要的是，通过吃饭这个场景可以更清晰地让模型展示手部细节，并通过吃面条这个动作来展示模型对于物理世界的理解。

↑即梦：第一帧表现不错，光影自然。但存在脸部和手部畸变的问题，模型对筷子的使用方式和面条的食用方式理解不足。

↑可灵：视频效果非常惊艳！环境光线、人物坐姿和使用筷子的手部姿势都非常真实，嘴部的油光反射清晰可见，展现了可灵在吃播领域的专长。不过，面条的运动轨迹有些许不自然。

↑PixVerse：效果不佳，出现了不连贯的分镜，且没有很好地理解运镜。

↑清影：如果不过分关注主体人物动作，整体效果尚可。光线、环境和氛围都表现到位。

场景3：动物拟人场景

提示词（简单版）：一头大熊猫戴着金边眼镜在教室黑板前讲课。

提示词（复杂版）：在充满电影胶片感的场景中，一头大熊猫戴着金边眼镜，在教室黑板前讲课。它的动作自然流畅，周围是质感丰富的教室环境，学生们认真听讲。整个场景如同电影画面，光影处理细腻，色彩饱满，8K电影级。

场景说明：通过设置两版提示词，测试大模型对于想象力的理解。简单版提示词仅有大熊猫、金边眼镜、黑板，模型可以自主添加其他内容；复杂版提示词则更全面，测试模型的细节刻画能力。

简单版提示词生成效果：

↑即梦：视频生成效果不错，除了“金边眼镜”外，要素齐全，神态动作自然，光影效果优秀。黑板上的字迹几乎可以以假乱真。

↑可灵：素材齐全，但对讲课和吃竹子的区别理解不足。画面相对单调，缺乏细节。

↑PixVerse：要素齐全，风格合适，只是眼镜部分略显突兀。

↑清影：完全没有理解提示词的意图。

复杂版提示词升级效果：

↑即梦：效果依然不错，光影理解在线，但眼镜部分有畸变，对“讲课”场景的座位排列理解不足。

↑可灵：真正的熊猫大师讲课图，表现优秀。

↑PixVerse：模型自行添加了运镜和细节，但最后有些扭曲，整体效果与前一版相似。

↑清影：有景深和运镜，但画面质感需提升，相比前一版有进步。

场景4：科技想象场景

提示词（简单版）：充满科技感的未来城市一角，仰视视角。

提示词（复杂版）：在充满科技感的科幻风格未来城市中，使用推近镜头，展现建筑和交通工具的细节，无人机在空中穿梭，天气晴朗，阳光洒在高楼大厦的玻璃幕墙上，周围环境充满未来感，科幻风格，气氛激昂明朗，HDR高动态。

场景说明：设置两版关键词，测试模型在不同颗粒度的提示词下所生成的视频内容丰富性。同时，“未来”是现实物理世界与想象世界的结合，可以测试模型对于建筑、光影和科幻的理解。

简单版提示词：

↑即梦：运镜角度、色彩等方面表现优秀，突出科技感，对提示词的理解到位。

↑可灵：方案稳妥，建筑有畸变，对未来的想象力略显不足，但在外立面添加LED大屏是亮点。

↑PixVerse：科幻感十足，但对仰视视角的理解不足。

↑清影：对仰视视角有心得，但对“未来城市”的理解有待提高。

复杂版提示词：

↑即梦：视频质量优秀，除了无人机的物理运动方式理解不足外，对提示词和风格的理解把握到位。

↑可灵：方案稳妥，但有些畸变，看起来像是北京动物园公交枢纽的实拍。

↑PixVerse：科幻感强烈，但畸变严重，评价因人而异。

↑清影：阳光效果突出，但色彩和“未来城市”的理解不足。

我们还从视频生成质量、内容生成准确性、使用成本、生成速度和交互界面等四个维度对所选取的四个大模型进行了测评。

在视频质量和清晰度方面，可灵大模型表现最佳，尤其是在生成大熊猫视频时

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复