仅凭一张图片,就能透视出全方位的景象?这不再是科幻小说中的场景,而是通过最新的技术——ViewCrafter,已经成为现实。这项由北京大学、香港中文大学和腾讯AI实验室等机构的研究人员共同开发的技术,能够从单一或稀疏的图像输入中生成具有精确相机控制能力的新视角视频。
想象一下,你手中只有一张图片,但通过ViewCrafter,你能够看到场景的每一个角落,无论是静态的建筑还是动态的事件。这项技术不仅能够生成新视角的视频,还支持从文本描述中直接生成3D场景,甚至能够从稀疏视角重建出完整的3D模型。
目前,这项技术的论文和代码已经公开,研究团队还在Huggingface上提供了在线演示,让每个人都能体验到这项技术的魔力。
ViewCrafter的核心在于它对传统新视角生成技术的革新。以往的技术,如NeRF和3D-GS,虽然在3D场景重建方面取得了显著成就,但它们对密集的多视角数据的依赖限制了其在资源受限或视角受限场景下的应用。
ViewCrafter的创新之处在于它能够从稀疏甚至单一视角的图像中,生成任意规模场景的新视角。这背后,是模型对3D物理世界的全面理解。
具体来说,ViewCrafter利用了快速发展的多视图/单视图立体技术,这使得从单张或稀疏图像中快速重建点云成为可能。点云提供了3D场景的粗略信息,为精确的相机位置控制和自由视角渲染提供了支持。
然而,点云的局限性在于其表示能力较弱,且稀疏的输入图像只能提供有限的3D线索,导致重建的点云存在遮挡和缺失区域,甚至可能面临几何形变和噪声问题。为了解决这些问题,研究团队训练了一个视频扩散模型,以点云渲染结果为条件信号,从而生成高保真度和3D一致性的新视角。
这种方法的另一个创新点在于,它采用了迭代式新视角生成策略和内容自适应的相机轨迹规划算法,逐步扩展新视角覆盖的区域和重建的点云。从初始输入图像构建的点云开始,通过预测相机轨迹,揭示遮挡和缺失区域,然后根据这些轨迹渲染点云,并生成高质量的新视角。
在实际应用中,ViewCrafter能够从单张图像、稀疏视角或文本描述中进行3D高斯重建,支持实时渲染和沉浸式3D体验。
在对比实验中,研究团队在多个真实世界数据集上与现有技术进行了定量和定性比较。结果显示,ViewCrafter在相机位姿控制的精准程度和生成新视角的视觉质量上都优于对比方法。
此外,团队还进行了消融实验,验证了点云先验作为视频扩散模型控制信号的有效性。实验结果表明,基于点云的控制信号在新视角生成质量和相机控制精准程度上都优于基于普吕克坐标的控制信号。
总体而言,ViewCrafter展示了其在静态场景新视角生成方面的强大能力。未来,研究团队计划探索将ViewCrafter与单目视频深度估计方法结合,实现单目动态视频的新视角生成和4D重建。
想要了解更多细节,不妨访问ViewCrafter的GitHub页面、项目主页,或者阅读最新的论文。
-
GitHub:https://github.com/Drexubery/ViewCrafter
-
项目主页:https://drexubery.github.io/ViewCrafter/
-
论文:https://arxiv.org/abs/2409.02048
-
Huggingface Demo:https://huggingface.co/spaces/Doubiiu/ViewCrafter