在AI视频制作领域,Sora似乎成了一个悬而未决的期待。近几个月来,国内外的AI视频生成应用如同雨后春笋般涌现,中国有快手、字节跳动、智谱AI、生数科技、爱诗科技等,海外则有谷歌、Luma、Runway等,竞争态势可谓百家争鸣。
尽管各平台之间的技术成熟度参差不齐,但整体而言,AI视频生成的可用性已经显著提升,风格化特征也日益丰富。然而,它们在融入实际工作流程方面仍显不足。Sora所描绘的蓝图,看来需要其他竞争者来实现。
随着文生视频应用的爆发,业界普遍认为视频是AI技术落地的关键领域。在7月30日的SIGGRAPH 2024会议上,英伟达CEO黄仁勋与Meta CEO扎克伯格的对话中,两位业界巨头一致认为视频能力将是AI大模型发展的重要方向。
Luma AI的首席科学家宋佳铭,曾在与a16z合伙人Anjney Midha的对话中指出,视频与3D世界的紧密联系,使得视频数据能够帮助模型更深入地理解和推理3D环境。因此,高质量的实时视频生成技术,有望推动具身AI的进一步发展。
视频技术的快速发展,为AI公司提供了一个全新的竞争平台。OpenAI的Sora虽然未能如期投入市场,却为其他公司提供了发展机遇。
(整理自公开信息)
(图源:天眼查)
在这场超长战线的背后,是各大公司对未来商业模式和技术应用前景的探索。例如,可灵、即梦、Vidu等公司推出了会员订阅模式,试图在消费者端普及其应用。爱诗科技的创始人王长虎在接受财新采访时表示,公司目前主要面向消费者,通过收集国内外用户的反馈,不断迭代和优化底层模型,以提升用户体验。至于更深远的应用,目前讨论还为时过早,因为C端的收费模式尚难以覆盖高昂的成本。
Luma AI则采取了面向消费者的产品形态,但其初衷是探索3D生成与重建的新可能,以视频为驱动力,推动3D技术的发展。这在产业领域具有更广阔的应用前景,如批量生产电影所需的三维素材等。Luma AI的愿景并非仅仅是销售技术或素材,而是构建一个类似TikTok的基于3D的生态系统。王长虎在与极客公园创始人张鹏的对话中也提到,爱诗科技同样着眼于“AIGC时代的平台性机会”,但具体的平台形态尚难以预测,因为AI产业的发展不会简单复制现有的平台模式。
开源视频编辑工具Clapper的热度上升,标志着AI-generated Video技术正逐步融入完整的工作流程。Clapper的特色在于整合了多种AI技术,通过prompt方式调动AI Agent生成和迭代故事,省去了手工编辑文件的繁琐过程。
(图源:机器之心)
AI-generated Video技术的快速发展超出了许多人的预期。目前,行业关注的焦点集中在生成速度和效率上。然而,大型模型并未提供明确的商业模式方向,这更多取决于各个团队的战略选择。在这个过程中,AI公司不仅要面对商业化挑战,还要考虑如何避免合规和成本问题。将AI视频技术推向成熟并非易事,目前的发展阶段类似于ChatGPT刚刚问世之时。
AI-generated Video面临的“硬伤”和潜在的突破口
a16z曾提出,从科研成果到商业产品的转化过程中,巨头需要更加关注法律安全、版权等问题,这往往导致转化效率较低。不论Sora是否因此而未能露面,整个行业都面临着类似的挑战。
1. 商业化的“落差”:目前的AI-generated Video技术难以满足客户的需求。彭博社报道,OpenAI一直在向好莱坞推荐Sora,但并未取得成功。6月公开的玩具反斗城广告是Sora制作的首个商业化广告,但该视频使用了部分旧素材,且公开新闻稿并未明确指出完全由AI生成。
导演Nik Kleverov在一条已删除的动态中提到,创意机构Native Foreign为这些镜头提供了约十几名工作人员,而Sora仅支持了80%至85%的制作流程。这对于追求高效低成本的AI视频生成技术来说,并非好消息。
2. 训练成本和高质量数据集的挑战:视频本质上是一系列图像的集合,虽然图像有众多公开数据集,但视频却缺乏这样的资源。OpenAI曾因违规使用YouTube视频进行训练而受到指责,英伟达也被曝光从Netflix和YouTube收集了大量数据,用于训练其Cosmos项目,以支持其AI产品向现实世界发展。这突显了两个关键点:一是黄仁勋和Luma的观点相似,AI视频技术的发展对AI进入3D世界具有重要意义;二是视频数据集存在版权问题,且这些视频数据缺乏标签,斯坦福大学教授Stefano Ermon指出,目前缺乏有效筛选和过滤高质量视频的方法,筛选后还需考虑标签和描述。
3. AI资产泡沫问题:AI技术必须解决用户的重要复杂问题才有价值,但目前的发展成效远不能与互联网等技术初生时相比。Benchmark合伙人Michael Eisenberg在访谈中引用了Atreides Management创始人Gavin Baker的观点,认为基础模型是历史上贬值最快的资产。他以金融领域为例,指出训练出的模型只能完成常规工作,无法应对数据的高速刷新,满足金融预测未来的需求。此外,其他技术的发展具有确定性,而AI技术则充满不确定性。互联网的边际成本几乎为零,而AI的边际成本涉及大量固定资产,目前主要由创业者自己承担,且投入越多,边际改善效应越弱。大量的早期投入可能成为一个陷阱。
技术革命之后必须伴随产业革命,而产业革命需要现象级产品的引领。AI更需要一个成功的应用场景。目前看来,AI-generated Video尚未展现出这样的成果。Perplexity的创始人Arin提供了另一个观点,即基础模型的价值本质上反映了背后团队的价值。不是Sora能改变视频产业,而是外界相信由OpenAI领导的Sora具有这样的潜力。当Sora未能达到预期的突破时,谁能在这一领域担起重任?
关键可能在于谁能将AI-generated Video真正融入到商业系统的工作流程中,就像Clapper对视频制作的探索一样。这涉及到与其他领域的融合——气象、城市、影视、汽车、制造业等。也许Sora会在未来的某一天展示出更具体的成果,或者有其他创业公司颠覆我们对AI视频技术的认知。