蜘蛛侠跳起舞，新ControlNet登场！贾佳亚团队新作，一键搞定，视频制作轻松控

在影视制作领域，技术的进步总能带来革命性的变化。最近，由港中文贾佳亚团队研发的ControlNeXt工具，以其高效的可控生成能力，成为了行业的焦点。这款工具以其不到10%的训练参数，实现了与ControlNet相媲美的图像和视频生成效果，而且完美适配了Stable Diffusion家族中的SDXL、SD1.5等常见模型，真正实现了即插即用的功能。

ControlNeXt的推出，不仅让视频生成的控制精度达到了前所未有的水平，甚至能够精确捕捉到角色手指的动作细节，这在以往的技术中是难以想象的。这一突破，无疑为影视动画制作提供了更为广阔的创作空间。

正如其名，ControlNeXt被定位为ControlNet的下一代产品，其命名灵感或许来源于何恺明与谢赛宁的ResNeXt，预示着这是一款站在巨人肩膀上的产品。网友们对ControlNeXt的评价也是褒贬不一，有人认为它确实代表了行业的新高度，有人则将其视为规则改变者，对提升可控生成的效率抱有极高的期待。

ControlNeXt支持的SD系列模型，包括了图像生成的SD1.5、SDXL、SD3，以及视频生成的SVD。通过实际效果展示，我们可以看到，在SDXL中加入边缘引导后，生成的二次元少女与控制线条几乎完美贴合，即便是复杂的轮廓控制，模型也能够轻松应对。更令人称赞的是，ControlNeXt无需额外训练就能与其他LoRA权重无缝集成，这在SD1.5中尤为明显，能够实现风格迥异的角色动作生成。

除了边缘引导，ControlNeXt还支持遮罩和景深控制模式，在SD3中甚至支持Super Resolution，生成的图像清晰度极高。在视频生成方面，ControlNeXt能够实现对人物动作的精准控制，无论是让蜘蛛侠跳起流行舞蹈，还是让椅子模仿同样的动作，ControlNeXt都能够做到动作的精确复刻。

与传统的ControlNet相比，ControlNeXt在训练参数的需求上大幅减少，收敛速度也有了显著提升。在SD1.5和SDXL中，ControlNet所需的可学习参数分别是3.61亿和12.51亿，而ControlNeXt仅需要3千万和1.08亿，大大减少了训练的计算成本。在训练过程中，ControlNeXt在400步左右就能接近收敛，而ControlNet则需要更多的步数。

ControlNeXt之所以能够实现这样的效果，主要得益于其轻量化的条件控制模块。这一模块移除了ControlNet中的庞大控制分支，转而引入了一个由少量ResNet块组成的轻量级卷积模块，这一设计大幅度降低了计算开销和内存占用。在架构设计上，ControlNeXt保持了与原始架构的一致性，实现了即插即用的功能。

在条件控制信息的注入上，ControlNeXt的团队深入研究了注入位置的选择和注入方式的设计。他们发现，在大多数可控生成任务中，控制信息与去噪过程的特征高度相关，因此选择了在网络中间层将条件特征与去噪特征聚合，并通过交叉归一化对齐两组特征的分布，直接相加，简化了聚合过程。

交叉归一化是ControlNeXt的核心技术之一，它替代了传统的zero-convolution等渐进式初始化策略，通过主干网络去噪特征的均值和方差对控制模块输出的特征进行归一化，使二者的数据分布尽量对齐，加快了收敛进程。

ControlNeXt的推出，不仅为影视制作行业带来了新的工具，更为创作者提供了更多的想象空间。随着技术的不断进步，我们有理由相信，未来的影视作品将更加丰富多彩。

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复