7月4日,商汤科技在世界人工智能大会(WAIC)上向世界展示了其突破性成果——首个可控制人物视频生成的AI大模型Vimi。这一创新技术允许用户仅凭一张风格迥异的照片,便能创造出与目标动作完全同步的人物视频,同时支持多样化的驱动方式,包括现有视频、动画、声音和文字等元素的融合驱动。
Vimi的问世,标志着人物表情控制技术的一次飞跃。它不仅能够精确捕捉并再现人物的面部表情,更进一步,能够在半身范围内,实现人物自然而流畅的肢体动作控制。此外,Vimi还具备自动生成与人物形象相匹配的头发、服饰以及背景的能力,为视频内容的丰富性和真实性提供了有力支撑。
Vimi的另一大亮点是其稳定性。该技术能够生成长达1分钟的单镜头人物视频,且画面质量在时间的流逝中保持不变,不会产生任何劣化或失真现象。这无疑满足了娱乐互动等场景下对长时间稳定视频生成的迫切需求。
面向C端用户,Vimi提供了极为便捷的使用体验。用户仅需上传一系列不同角度的高清人物照片,Vimi便能自动生成数字分身,并根据用户需求,创作出不同风格的写真视频。
Vimi生成的视频人物,不再是简单的五官动作,而是融合了手势、肢体动作以及头发等元素,形成了一个完整且协调的人物形象。这为创作者提供了丰富的视频素材,使得他们可以在此基础上进行剪辑和二次创作,进一步拓展创意的边界。
商汤科技表示,将在接下来的时间内公布Vimi的更多技术细节,并持续关注其发展动态,为公众带来最新的跟进报道。