最近,一段由AI创造的体操视频在网络上引发了热烈讨论,吸引了近百万观众的目光,甚至引起了像LeCun这样的行业大咖的激烈辩论。
这段视频,似乎在挑战我们对AI理解物理世界的能力的认知。
视频的右上角显示了“Dream Machine”的水印,这是由Luma AI开发的技术,它曾经被寄予厚望,被认为是视频生成领域的未来。
然而,当观众看到这段视频时,他们开始质疑:AI真的理解物理规律吗?
LeCun毫不客气地指出:
AI视频生成模型并不理解基本的物理原理,更不用说人体运动了。
华盛顿大学的计算机科学教授Pedro Domingos也表达了他的怀疑:
通用人工智能(AGI)的到来可能并不像一些人预期的那样迫在眉睫。
视频的怪异之处
自从Sora技术问世以来,关于"AI是否理解物理规律"的讨论就从未停止过。
例如,Sora生成的一段“寄居蟹夜间使用灯泡作为外壳”的视频,展示了海浪与沙滩的细腻互动,以及寄居蟹腿上纤毛的生动细节。
与真实拍摄的照片相比,唯一的瑕疵就是灯泡没有电源,不应该亮起。
Luma AI的Dream Machine生成的第一人称视角探索废弃房屋的视频也给人留下了深刻的印象,真实感满满。
这使得一些人开始认为,Sora、Luma等视频生成模型可能已经掌握了一些基本的物理规律。
但是,最近发布的这段视频却让人大跌眼镜。
视频中的体操运动员动作怪异,肢体动作不连贯,甚至出现了违反物理规律的悬浮和翻转动作,让人不禁怀疑这是否是AI对物理规律的误解。
网友们对此反应不一,有人觉得这很恐怖,也有人觉得这很有趣。
LeCun进一步解释说,尽管Sora和其他视频生成模型可能存在类似的问题,但视频生成技术肯定会随着时间的推移而进步。
但他同时强调:
真正理解物理的学习系统不会具有生成性。就像鸟类和哺乳动物比任何视频生成系统更了解物理,但它们无法生成详细的视频。
这种观点引发了人们的思考:即使AI视频生成模型能够生成质量完美的视频,这是否就意味着它理解了物理呢?
LeCun的观点迅速引起了网友的质疑:
鸟类和哺乳动物确实会在大脑中生成详细的视频,只是无法将其具象化。
然而,这种反驳并没有说服LeCun。
与此同时,还有许多人持有不同的观点。
例如,谷歌DeepMind/Brain团队的研究员Lucas Beyer指出:
这就像是展示几年前Dall・E mini生成的图像,然后断言当前的图像生成技术注定失败一样。
毕竟,早期的图像生成模型生成的图像质量是这样的:
那么,为什么模型会生成如此离谱的视频呢?
一些网友认为,这可能是因为缺乏足够的体操表演数据,或者是因为身体部位的模糊处理,导致模型无法准确理解人体结构,从而无法保证肢体动作的连贯性。
视频生成在计算上更为复杂,具有高度的上下文相关性,对详细标注的训练数据有更大的需求,这些需求目前还没有得到充分的满足。
前段时间,SD 3的翻车事件也引起了人们对人体生成效果不佳的讨论,有人认为过于严格的数据审核可能误删了一些无害的成人图像,影响了模型对人体结构的理解。
更多内容
除了Luma AI的Dream Machine生成的体操视频引发争议外,Runway的Gen-3也出现了类似的问题……
同样的三头六臂:
同样的空中悬浮绝技:
这些现象再次引发了人们对AI视频生成技术未来发展的思考。