腾讯混元整了个图生视频模型HunyuanVideo-I2V，还搞了对口型等好玩的

在数字内容创作领域，腾讯再次掀起了一股创新浪潮，正式开源了其最新研发的图像转视频生成框架——HunyuanVideo-I2V。这一举措不仅是继HunyuanVideo开源之后的又一里程碑，更是为开源社区注入了新的活力，推动了视频生成技术的进一步发展。

HunyuanVideo-I2V框架的出现，为创作者带来了前所未有的便利和灵感。它能够将静态图像转化为充满活力的视频，极大地拓展了创作的边界。用户仅需上传一张图片，并简要描述期望的动态效果，即可生成一段长达五秒的视频。这一模型不仅让静态图像“活”了起来，还能自动匹配背景音效，使视频更具吸引力和趣味性。

该模型的核心优势在于其强大的语义理解能力。它借助预训练的多模态大语言模型作为文本编码器，能够深度解析输入图像的语义内容。通过将图像生成的语义标记与视频潜在标记相结合，模型实现了全面的全注意力计算。这种创新的架构设计，使得图像与文本模态之间的协同作用达到最大化，从而确保生成的视频内容不仅连贯，而且更具真实感。

为了让更广泛的用户群体能够体验这一前沿技术，腾讯混元AI视频官网已经正式上线。用户可以轻松访问该网站，直接进行图像转视频的操作。同时，对于企业和开发者而言，他们还可以通过腾讯云申请API接口，将这一技术无缝集成到自己的应用中。HunyuanVideo-I2V模型是混元文生视频模型开源工作的延续，其总参数量高达130亿，能够生成多种类型的角色和场景，包括写实视频、动漫角色以及CGI角色等。

在实际使用中，HunyuanVideo-I2V提供了更多个性化功能。用户可以上传人物图片，并输入希望其“对口型”的文字或音频，系统便能让图片中的人物“说话”或“唱歌”。此外，混元还推出了“动作驱动”功能，用户可以一键生成舞蹈视频，进一步丰富创作的多样性和趣味性。

此次开源的图生视频模型已经在Github和HuggingFace等主流开发者社区发布，开发者可以下载模型权重、推理代码以及LoRA训练代码进行试验和开发。这些开源内容为开发者提供了广阔的空间，使他们能够在现有基础上训练专属的LoRA模型。

自开源以来，HunyuanVideo模型的热度持续攀升，去年12月更是荣登HuggingFace全站趋势榜首位，其在Github上的Star数已突破8.9K。众多开发者积极参与，为HunyuanVideo制作了大量插件和衍生模型，目前已积累了超过900个衍生版本。此前开源的混元DiT文生图模型也表现不俗，衍生模型数量已超过1600个。

官网：https://video.hunyuan.tencent.com/

github：https://github.com/Tencent/HunyuanVideo-I2V

huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复