在数字内容创作领域,腾讯再次掀起了一股创新浪潮,正式开源了其最新研发的图像转视频生成框架——HunyuanVideo-I2V。这一举措不仅是继HunyuanVideo开源之后的又一里程碑,更是为开源社区注入了新的活力,推动了视频生成技术的进一步发展。
HunyuanVideo-I2V框架的出现,为创作者带来了前所未有的便利和灵感。它能够将静态图像转化为充满活力的视频,极大地拓展了创作的边界。用户仅需上传一张图片,并简要描述期望的动态效果,即可生成一段长达五秒的视频。这一模型不仅让静态图像“活”了起来,还能自动匹配背景音效,使视频更具吸引力和趣味性。
该模型的核心优势在于其强大的语义理解能力。它借助预训练的多模态大语言模型作为文本编码器,能够深度解析输入图像的语义内容。通过将图像生成的语义标记与视频潜在标记相结合,模型实现了全面的全注意力计算。这种创新的架构设计,使得图像与文本模态之间的协同作用达到最大化,从而确保生成的视频内容不仅连贯,而且更具真实感。
为了让更广泛的用户群体能够体验这一前沿技术,腾讯混元AI视频官网已经正式上线。用户可以轻松访问该网站,直接进行图像转视频的操作。同时,对于企业和开发者而言,他们还可以通过腾讯云申请API接口,将这一技术无缝集成到自己的应用中。HunyuanVideo-I2V模型是混元文生视频模型开源工作的延续,其总参数量高达130亿,能够生成多种类型的角色和场景,包括写实视频、动漫角色以及CGI角色等。
在实际使用中,HunyuanVideo-I2V提供了更多个性化功能。用户可以上传人物图片,并输入希望其“对口型”的文字或音频,系统便能让图片中的人物“说话”或“唱歌”。此外,混元还推出了“动作驱动”功能,用户可以一键生成舞蹈视频,进一步丰富创作的多样性和趣味性。
此次开源的图生视频模型已经在Github和HuggingFace等主流开发者社区发布,开发者可以下载模型权重、推理代码以及LoRA训练代码进行试验和开发。这些开源内容为开发者提供了广阔的空间,使他们能够在现有基础上训练专属的LoRA模型。
自开源以来,HunyuanVideo模型的热度持续攀升,去年12月更是荣登HuggingFace全站趋势榜首位,其在Github上的Star数已突破8.9K。众多开发者积极参与,为HunyuanVideo制作了大量插件和衍生模型,目前已积累了超过900个衍生版本。此前开源的混元DiT文生图模型也表现不俗,衍生模型数量已超过1600个。
官网:https://video.hunyuan.tencent.com/
github:https://github.com/Tencent/HunyuanVideo-I2V
huggingface:https://huggingface.co/tencent/HunyuanVideo-I2V