腾讯混元推出图生视频模型开源啦！能做5秒短视频，还能自动配背景音

3月6日，腾讯混元团队宣布推出图生视频模型，并正式对外开源。这一创新技术不仅为视频创作带来了全新的可能性，还通过一系列功能升级，如对口型和动作驱动等，为用户提供了更加丰富的创作体验。

图生视频模型的核心优势在于其强大的生成能力。用户仅需上传一张图片，并通过简短的文字描述来指导画面的运动和镜头的调度，混元便能够将静态图片转化为具有动态效果的5秒短视频。不仅如此，该模型还能自动为生成的视频配上背景音效，进一步增强了视频的观赏性。此外，用户还可以上传人物图片，并输入希望人物“对口型”的文字或音频，让图片中的人物仿佛真正“说话”或“唱歌”。借助“动作驱动”功能，用户甚至能够一键生成同款跳舞视频，为创作带来更多乐趣。

目前，用户可以通过访问混元AI视频官网（https://video.hunyuan.tencent.com/）直接体验这一功能。对于企业和开发者而言，他们还可以通过腾讯云申请使用API接口，将这一技术集成到自己的应用和服务中。

此次开源的图生视频模型是混元文生视频模型开源工作的进一步延续。该模型总参数量维持在130亿，适用于多种类型的角色和场景，包括写实视频制作、动漫角色以及CGI角色的生成。开源内容涵盖了模型权重、推理代码以及LoRA训练代码，为开发者提供了基于混元训练专属LoRA等衍生模型的便利。目前，这一开源模型已经在Github、HuggingFace等主流开发者社区上线，供全球开发者下载和体验。

混元团队在开源技术报告中披露，图生视频和文生视频在相同的数据集上进行了预训练，这使得模型具备了灵活的扩展性。在保持超写实画质、流畅演绎大幅度动作以及原生镜头切换等特性的同时，模型能够捕捉丰富的视觉和语义信息。通过结合图像、文本、音频和姿态等多种输入条件，用户可以实现对生成视频的多维度控制。

目前，混元开源系列模型已经完整覆盖了文本、图像、视频和3D生成等多个模态。在Github上，混元系列模型累计获得了超过2.3万开发者的关注和star，显示出其在开发者社区中的广泛影响力和受欢迎程度。

附：混元图生视频开源链接

Github：https://github.com/Tencent/HunyuanVideo-I2V

Huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

相关文章

中国信通院开始搞多模态智能体技术规范的编写工作啦

华为昇腾和阶跃星辰搞了个开源多模态模型，进军AI新领域

AI上身浏览器？Browser Use火了，开发者狂赞绝绝子！

DeepSeek啥的，会让文科没用吗？

全国高校第一个！东南大学上线阿里QwQ-32B，能用消费级显卡本地部署

Manus AI：AI代理风波过后，重新出发，专注搞核心AI技术

发表回复 取消回复

发表回复取消回复