震撼发布!李飞飞领衔的空间智能项目揭开神秘面纱:
仅需一张图片,即可孕育出一个完整的3D游戏世界,AI技术的这一突破令人瞩目。
核心亮点在于,这个3D世界不仅栩栩如生,还具备高度的交互性。
用户可以如同置身游戏之中,自由操控视角,探索每一个角落,实现浅景深、希区柯克变焦等高级摄影技巧。
上传任意图片:
除了图片本身,3D世界中的其余元素均由AI智能生成:
这些场景能够实时在浏览器中渲染,支持调整摄像机效果和模拟景深(DoF),用户甚至能够更改物体颜色,调节背景光线,或是在场景中添加新的对象。
与以往模型不同,该AI系统直接预测3D场景,而非像素,这意味着场景的稳定性和遵循3D几何物理规则的一致性。
网上的反响热烈,评论区被“难以置信”的惊叹声淹没。
包括Shopify创始人Tobi Lutke在内的多位知名人士也对这一成果表示赞赏:
许多网友认为这为虚拟现实(VR)领域带来了革命性的突破。
官方表示:“这只是3D原生生成AI未来的冰山一角”:
我们正致力于将这项技术尽快推向市场,让用户体验前所未有的3D世界。
李飞飞本人也迅速分享了这一成果,并表示:
无论我们如何用理论去解释,语言总是难以传达通过一张照片或一句话生成的3D场景互动体验的奇妙,期待大家的反馈。
目前,候补名单申请已经开放,一些内容创作者已经开始体验。无数羡慕的目光投向了他们。
超越输入图像
官方博客宣布,World Labs今日迈出了通往空间智能的重要一步:
我们发布了一个基于单张图片生成3D世界的AI系统。
超越输入图像,一切皆由AI生成。
这意味着任何图片都能成为3D世界的起点。
而且,这是一个可以互动的3D世界——用户可以通过键盘的W/A/S/D键来控制视角的上下左右移动,或者使用鼠标拖动来探索这个虚拟世界。
官方博客中提供了多个可试玩的demo。
强烈推荐大家亲自体验,因为实际操作的感觉与观看视频或动图截然不同。
那么,这个AI系统生成的3D世界还有哪些值得深究的细节呢?
摄像机效果
World Labs指出,一旦3D世界生成,它将在浏览器中实时渲染,给人一种仿佛在操作虚拟摄像头的体验。
用户可以精确控制这个摄像头,包括两种主要玩法:
一是模拟景深效果,即只有一定距离内的物体能够清晰对焦。
二是模拟滑动变焦(Dolly Zoom),这是电影中非常经典的希区柯克变焦技术。
其特点是“画面中的主体大小保持不变,而背景大小发生变化”。
许多旅行者在西藏、新疆等地旅行时,都希望能够用希区柯克变焦技术拍摄视频,以获得强烈的视觉冲击。在World Labs的展示中,效果如下(但在这个玩法中,无法控制视角):
3D效果
World Labs强调,大多数生成模型预测的是像素,而他们的AI系统预测的是3D场景。
官方博客列举了三大优势:
第一,持久现实。
一旦生成一个世界,它就会持续存在,不会因为视角的改变而发生变化。
第二,实时控制。
用户可以在生成场景后,通过键盘或鼠标实时控制,在这个3D世界中自由移动。
你可以细致观察一朵花的细节,或者在某个角落默默观察,以上帝视角关注这个世界的每一个动态。
第三,遵循正确的几何规则。
这个AI系统生成的世界,遵循3D集合物理的基本规则。
某些AI生成的视频虽然效果梦幻,但缺乏我们这种深度的真实感。
官方博客还提到,创建一个可视化3D场景最简单的方法是绘制深度图。
图中每个像素的颜色都是由它与摄像头的距离决定的。
当然,用户可以利用3D场景结构来构建互动效果——
单击即可与场景互动,包括但不限于突然给场景打上聚光灯。
动画效果?
那也是轻而易举。
走进绘画世界
团队还尝试了一种“全新的方式”来体验一些经典艺术作品。
这种新方式不仅在于可互动的交互方式,还在于仅凭输入的一张图,就能补全原画中未展现的部分,并将其转化为3D世界。
这是梵高的《夜晚露天咖啡座》:
这是爱德华・霍普的《夜行者》:
创造性的工作流
团队表示,3D世界生成可以无缝与其他AI工具结合,让创作者们能够使用他们已经熟悉的工具,体验全新的工作流。
例如:
可以先用文生图模型,从文本世界过渡到图像世界。由于不同模型有各自的风格特点,3D世界可以将这些风格迁移、继承。
在同一提示下,输入不同风格的文生图模型生成的图片,可以创造出不同的3D世界:
一个充满活力的卡通风格青少年卧室,床上铺着五彩斑斓的毯子,桌子上杂乱地摆放着电脑,墙上挂着海报,散落着运动器材。一把吉他靠在墙上,中间铺着一块舒适的花纹地毯。窗户透进的光线给房间增添了一丝温暖和青春的气息。
World Labs与空间智能
“World Labs”公司,由斯坦福大学教授、AI领域的领军人物李飞飞在今年4月创立。这也是她首次创业。
她的创业方向是一个全新的概念——空间智能,即:
视觉化为洞察;看见成为理解;理解导致行动。
在李飞飞看来,这是“解决人工智能难题的关键拼图”。
公司仅用3个月时间就突破了10亿美元估值,成为新兴的独角兽企业。
公开资料显示,a16z、NEA和Radical Ventures是主要投资方,Adobe、AMD、Databricks,以及英伟达等也在投资者之列。个人投资者中也包括Karpathy、Jeff Dean、Hinton等业界大咖。
今年5月,李飞飞在一场公开的15分钟TED演讲中,分享了她对空间智能的更多思考,要点包括:
-
视觉能力被认为是引发寒武纪大爆发的关键——一个动物物种大量进入化石记录的时期。最初是被动体验,简单让光线进入的定位,很快变得更加主动,神经系统开始进化……这些变化催生了智能。
-
多年来,我一直在说拍照和理解不是一回事。今天,我想再补充一点:仅仅看是不够的。看,是为了行动和学习。
-
如果我们想让AI超越当前能力,我们不仅想要能够看到和说话的AI,我们还想要能够行动的AI。空间智能的最新里程碑是,教计算机看到、学习、行动,并学习看到和行动得更好。
-
随着空间智能的加速进步,一个新时代在这个良性循环中正在我们眼前展开。这种循环正在催化机器人学习,这是任何需要理解和与3D世界互动的具身智能系统的关键组成部分。
据报道,该公司的目标客户包括视频游戏开发商和电影制片厂。除了互动场景之外,World Labs还计划开发一些对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具。
如今,随着空间智能首个项目的发布,他们的愿景也逐渐变得具体。但World Labs表示,目前发布的只是一个“早期预览”:
我们正在努力改进我们生成的世界的规模和逼真度,并尝试新的方式让用户与之互动。
原标题《李飞飞空间智能首秀:AI 靠单图生成 3D 世界,可探索,遵循基本物理几何规则》