Sora画的AI大饼，行业真的帮忙实现了吗？

在AI视频制作领域，Sora似乎成了一个悬而未决的期待。近几个月来，国内外的AI视频生成应用如同雨后春笋般涌现，中国有快手、字节跳动、智谱AI、生数科技、爱诗科技等，海外则有谷歌、Luma、Runway等，竞争态势可谓百家争鸣。

尽管各平台之间的技术成熟度参差不齐，但整体而言，AI视频生成的可用性已经显著提升，风格化特征也日益丰富。然而，它们在融入实际工作流程方面仍显不足。Sora所描绘的蓝图，看来需要其他竞争者来实现。

随着文生视频应用的爆发，业界普遍认为视频是AI技术落地的关键领域。在7月30日的SIGGRAPH 2024会议上，英伟达CEO黄仁勋与Meta CEO扎克伯格的对话中，两位业界巨头一致认为视频能力将是AI大模型发展的重要方向。

Luma AI的首席科学家宋佳铭，曾在与a16z合伙人Anjney Midha的对话中指出，视频与3D世界的紧密联系，使得视频数据能够帮助模型更深入地理解和推理3D环境。因此，高质量的实时视频生成技术，有望推动具身AI的进一步发展。

视频技术的快速发展，为AI公司提供了一个全新的竞争平台。OpenAI的Sora虽然未能如期投入市场，却为其他公司提供了发展机遇。

（整理自公开信息）

（图源：天眼查）

在这场超长战线的背后，是各大公司对未来商业模式和技术应用前景的探索。例如，可灵、即梦、Vidu等公司推出了会员订阅模式，试图在消费者端普及其应用。爱诗科技的创始人王长虎在接受财新采访时表示，公司目前主要面向消费者，通过收集国内外用户的反馈，不断迭代和优化底层模型，以提升用户体验。至于更深远的应用，目前讨论还为时过早，因为C端的收费模式尚难以覆盖高昂的成本。

Luma AI则采取了面向消费者的产品形态，但其初衷是探索3D生成与重建的新可能，以视频为驱动力，推动3D技术的发展。这在产业领域具有更广阔的应用前景，如批量生产电影所需的三维素材等。Luma AI的愿景并非仅仅是销售技术或素材，而是构建一个类似TikTok的基于3D的生态系统。王长虎在与极客公园创始人张鹏的对话中也提到，爱诗科技同样着眼于“AIGC时代的平台性机会”，但具体的平台形态尚难以预测，因为AI产业的发展不会简单复制现有的平台模式。

开源视频编辑工具Clapper的热度上升，标志着AI-generated Video技术正逐步融入完整的工作流程。Clapper的特色在于整合了多种AI技术，通过prompt方式调动AI Agent生成和迭代故事，省去了手工编辑文件的繁琐过程。

（图源：机器之心）

AI-generated Video技术的快速发展超出了许多人的预期。目前，行业关注的焦点集中在生成速度和效率上。然而，大型模型并未提供明确的商业模式方向，这更多取决于各个团队的战略选择。在这个过程中，AI公司不仅要面对商业化挑战，还要考虑如何避免合规和成本问题。将AI视频技术推向成熟并非易事，目前的发展阶段类似于ChatGPT刚刚问世之时。

AI-generated Video面临的“硬伤”和潜在的突破口

a16z曾提出，从科研成果到商业产品的转化过程中，巨头需要更加关注法律安全、版权等问题，这往往导致转化效率较低。不论Sora是否因此而未能露面，整个行业都面临着类似的挑战。

1. 商业化的“落差”：目前的AI-generated Video技术难以满足客户的需求。彭博社报道，OpenAI一直在向好莱坞推荐Sora，但并未取得成功。6月公开的玩具反斗城广告是Sora制作的首个商业化广告，但该视频使用了部分旧素材，且公开新闻稿并未明确指出完全由AI生成。

导演Nik Kleverov在一条已删除的动态中提到，创意机构Native Foreign为这些镜头提供了约十几名工作人员，而Sora仅支持了80%至85%的制作流程。这对于追求高效低成本的AI视频生成技术来说，并非好消息。

2. 训练成本和高质量数据集的挑战：视频本质上是一系列图像的集合，虽然图像有众多公开数据集，但视频却缺乏这样的资源。OpenAI曾因违规使用YouTube视频进行训练而受到指责，英伟达也被曝光从Netflix和YouTube收集了大量数据，用于训练其Cosmos项目，以支持其AI产品向现实世界发展。这突显了两个关键点：一是黄仁勋和Luma的观点相似，AI视频技术的发展对AI进入3D世界具有重要意义；二是视频数据集存在版权问题，且这些视频数据缺乏标签，斯坦福大学教授Stefano Ermon指出，目前缺乏有效筛选和过滤高质量视频的方法，筛选后还需考虑标签和描述。

3. AI资产泡沫问题：AI技术必须解决用户的重要复杂问题才有价值，但目前的发展成效远不能与互联网等技术初生时相比。Benchmark合伙人Michael Eisenberg在访谈中引用了Atreides Management创始人Gavin Baker的观点，认为基础模型是历史上贬值最快的资产。他以金融领域为例，指出训练出的模型只能完成常规工作，无法应对数据的高速刷新，满足金融预测未来的需求。此外，其他技术的发展具有确定性，而AI技术则充满不确定性。互联网的边际成本几乎为零，而AI的边际成本涉及大量固定资产，目前主要由创业者自己承担，且投入越多，边际改善效应越弱。大量的早期投入可能成为一个陷阱。

技术革命之后必须伴随产业革命，而产业革命需要现象级产品的引领。AI更需要一个成功的应用场景。目前看来，AI-generated Video尚未展现出这样的成果。Perplexity的创始人Arin提供了另一个观点，即基础模型的价值本质上反映了背后团队的价值。不是Sora能改变视频产业，而是外界相信由OpenAI领导的Sora具有这样的潜力。当Sora未能达到预期的突破时，谁能在这一领域担起重任？

关键可能在于谁能将AI-generated Video真正融入到商业系统的工作流程中，就像Clapper对视频制作的探索一样。这涉及到与其他领域的融合——气象、城市、影视、汽车、制造业等。也许Sora会在未来的某一天展示出更具体的成果，或者有其他创业公司颠覆我们对AI视频技术的认知。

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复