AI一键生成3D世界，李飞飞带你玩转空间智能新体验

震撼发布！李飞飞领衔的空间智能项目揭开神秘面纱：

仅需一张图片，即可孕育出一个完整的3D游戏世界，AI技术的这一突破令人瞩目。

核心亮点在于，这个3D世界不仅栩栩如生，还具备高度的交互性。

用户可以如同置身游戏之中，自由操控视角，探索每一个角落，实现浅景深、希区柯克变焦等高级摄影技巧。

上传任意图片：

除了图片本身，3D世界中的其余元素均由AI智能生成：

这些场景能够实时在浏览器中渲染，支持调整摄像机效果和模拟景深（DoF），用户甚至能够更改物体颜色，调节背景光线，或是在场景中添加新的对象。

与以往模型不同，该AI系统直接预测3D场景，而非像素，这意味着场景的稳定性和遵循3D几何物理规则的一致性。

网上的反响热烈，评论区被“难以置信”的惊叹声淹没。

包括Shopify创始人Tobi Lutke在内的多位知名人士也对这一成果表示赞赏：

许多网友认为这为虚拟现实（VR）领域带来了革命性的突破。

官方表示：“这只是3D原生生成AI未来的冰山一角”：

我们正致力于将这项技术尽快推向市场，让用户体验前所未有的3D世界。

李飞飞本人也迅速分享了这一成果，并表示：

无论我们如何用理论去解释，语言总是难以传达通过一张照片或一句话生成的3D场景互动体验的奇妙，期待大家的反馈。

目前，候补名单申请已经开放，一些内容创作者已经开始体验。无数羡慕的目光投向了他们。

超越输入图像

官方博客宣布，World Labs今日迈出了通往空间智能的重要一步：

我们发布了一个基于单张图片生成3D世界的AI系统。

超越输入图像，一切皆由AI生成。

这意味着任何图片都能成为3D世界的起点。

而且，这是一个可以互动的3D世界——用户可以通过键盘的W/A/S/D键来控制视角的上下左右移动，或者使用鼠标拖动来探索这个虚拟世界。

官方博客中提供了多个可试玩的demo。

强烈推荐大家亲自体验，因为实际操作的感觉与观看视频或动图截然不同。

那么，这个AI系统生成的3D世界还有哪些值得深究的细节呢？

摄像机效果

World Labs指出，一旦3D世界生成，它将在浏览器中实时渲染，给人一种仿佛在操作虚拟摄像头的体验。

用户可以精确控制这个摄像头，包括两种主要玩法：

一是模拟景深效果，即只有一定距离内的物体能够清晰对焦。

二是模拟滑动变焦（Dolly Zoom），这是电影中非常经典的希区柯克变焦技术。

其特点是“画面中的主体大小保持不变，而背景大小发生变化”。

许多旅行者在西藏、新疆等地旅行时，都希望能够用希区柯克变焦技术拍摄视频，以获得强烈的视觉冲击。在World Labs的展示中，效果如下（但在这个玩法中，无法控制视角）：

3D效果

World Labs强调，大多数生成模型预测的是像素，而他们的AI系统预测的是3D场景。

官方博客列举了三大优势：

第一，持久现实。

一旦生成一个世界，它就会持续存在，不会因为视角的改变而发生变化。

第二，实时控制。

用户可以在生成场景后，通过键盘或鼠标实时控制，在这个3D世界中自由移动。

你可以细致观察一朵花的细节，或者在某个角落默默观察，以上帝视角关注这个世界的每一个动态。

第三，遵循正确的几何规则。

这个AI系统生成的世界，遵循3D集合物理的基本规则。

某些AI生成的视频虽然效果梦幻，但缺乏我们这种深度的真实感。

官方博客还提到，创建一个可视化3D场景最简单的方法是绘制深度图。

图中每个像素的颜色都是由它与摄像头的距离决定的。

当然，用户可以利用3D场景结构来构建互动效果——

单击即可与场景互动，包括但不限于突然给场景打上聚光灯。

动画效果？

那也是轻而易举。

走进绘画世界

团队还尝试了一种“全新的方式”来体验一些经典艺术作品。

这种新方式不仅在于可互动的交互方式，还在于仅凭输入的一张图，就能补全原画中未展现的部分，并将其转化为3D世界。

这是梵高的《夜晚露天咖啡座》：

这是爱德华・霍普的《夜行者》：

创造性的工作流

团队表示，3D世界生成可以无缝与其他AI工具结合，让创作者们能够使用他们已经熟悉的工具，体验全新的工作流。

例如：

可以先用文生图模型，从文本世界过渡到图像世界。由于不同模型有各自的风格特点，3D世界可以将这些风格迁移、继承。

在同一提示下，输入不同风格的文生图模型生成的图片，可以创造出不同的3D世界：

一个充满活力的卡通风格青少年卧室，床上铺着五彩斑斓的毯子，桌子上杂乱地摆放着电脑，墙上挂着海报，散落着运动器材。一把吉他靠在墙上，中间铺着一块舒适的花纹地毯。窗户透进的光线给房间增添了一丝温暖和青春的气息。

World Labs与空间智能

“World Labs”公司，由斯坦福大学教授、AI领域的领军人物李飞飞在今年4月创立。这也是她首次创业。

她的创业方向是一个全新的概念——空间智能，即：

视觉化为洞察；看见成为理解；理解导致行动。

在李飞飞看来，这是“解决人工智能难题的关键拼图”。

公司仅用3个月时间就突破了10亿美元估值，成为新兴的独角兽企业。

公开资料显示，a16z、NEA和Radical Ventures是主要投资方，Adobe、AMD、Databricks，以及英伟达等也在投资者之列。个人投资者中也包括Karpathy、Jeff Dean、Hinton等业界大咖。

今年5月，李飞飞在一场公开的15分钟TED演讲中，分享了她对空间智能的更多思考，要点包括：

视觉能力被认为是引发寒武纪大爆发的关键——一个动物物种大量进入化石记录的时期。最初是被动体验，简单让光线进入的定位，很快变得更加主动，神经系统开始进化……这些变化催生了智能。
多年来，我一直在说拍照和理解不是一回事。今天，我想再补充一点：仅仅看是不够的。看，是为了行动和学习。
如果我们想让AI超越当前能力，我们不仅想要能够看到和说话的AI，我们还想要能够行动的AI。空间智能的最新里程碑是，教计算机看到、学习、行动，并学习看到和行动得更好。
随着空间智能的加速进步，一个新时代在这个良性循环中正在我们眼前展开。这种循环正在催化机器人学习，这是任何需要理解和与3D世界互动的具身智能系统的关键组成部分。

据报道，该公司的目标客户包括视频游戏开发商和电影制片厂。除了互动场景之外，World Labs还计划开发一些对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具。

如今，随着空间智能首个项目的发布，他们的愿景也逐渐变得具体。但World Labs表示，目前发布的只是一个“早期预览”：

我们正在努力改进我们生成的世界的规模和逼真度，并尝试新的方式让用户与之互动。

原标题《李飞飞空间智能首秀：AI 靠单图生成 3D 世界，可探索，遵循基本物理几何规则》

超越输入图像

摄像机效果

3D效果

走进绘画世界

创造性的工作流

World Labs与空间智能

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复