在2024年的寒冷冬日里,中国AI领域的一次革命性突破再次刷新了我们与技术的互动方式。
11月29日,智谱AI在技术开放日上展示了一项引人注目的技术成果:AI首次发放红包。
智谱AI的CEO张鹏仅用三句简单的语音指令,便指挥其智能体AutoGLM在微信、支付宝等多个平台间穿梭,向现场及线上观众派发了红包。
这一创新背后,是AI Agent技术的一次飞跃。
传统AI助手仅能被动响应单一场景的指令,而智谱AI的AutoGLM却能主动理解复杂指令,跨平台协作,并准确执行用户意图。
AutoGLM不仅能处理如发放红包这样的简单任务,还能流畅执行复杂的多步骤任务,例如在订外卖时跨多个APP进行比价。
然而,这只是智谱AI今年在AI领域取得的众多成就之一。
今年7月,智谱AI发布了第四代代码生成大模型CodeGeeX,支持代码补全、注释、修复和翻译等基础功能。7月末,智谱AI的视频生成模型“智谱清影”问世,能生成6秒长、1440×960分辨率的视频。
到了10月,智谱AI推出了端到端语音模型GLM-4-Voice,并开源,该模型能够进行实时语音对话,并在情绪表达、多语言等方面取得突破,且支持随时打断。
智谱AI在代码、多模态、Agent等多个方向上的全面技术布局,展现了其追赶全球AI巨头的决心。
然而,在这种全面进展的背后,也引发了对智谱在各个领域深耕程度的冷静思考。
在体量和资本均不及OpenAI等巨头的情况下,智谱AI广泛的技术覆盖是否会影响其在各领域的深入发展?
智谱AI虽然在AI赛道上布局广泛,但在每条战线上的表现相对“平均”,产品方向更倾向于跟随而非创新。
以智谱AI最近发布的旗舰大模型GLM-4-Plus为例,该模型定位为深度推理模型,类似于OpenAI的GPT-4o。虽然在深度推理、长文本处理和指令遵循等方面表现出色,但这种“强大”并不等同于绝对优势,反而暴露出潜在的矛盾。
GLM-4-Plus与智谱AI的生态定位之间存在错位。智谱AI虽然更偏向B端市场,但B端市场并非单一结构,而是由不同层级和类型的需求构成。
高性能深度推理的需求主要来自科研、高技术行业或特定领域,这些领域的规模相对有限。
智谱AI的B端客户则聚焦于更广泛的行业应用,包括金融、教育、能源、通信等行业,这些企业更需要性价比高、易集成且灵活的模型,而非需要高算力支持的深度推理大模型。
智谱AI在多模态方向上的布局,反映了其更深层次的“定位迷失”。
智谱AI在2024年发布的多模态语音助手功能,尤其是基于GLM系列的“智谱清言”系统,试图在C端应用领域拓展新的场景。
然而,与科大讯飞的“星火”大模型和字节跳动的“豆包”语音AI相比,智谱AI的表现呈现出一些耐人寻味的矛盾。
科大讯飞已深耕语音领域多年,其语音识别、翻译和场景化应用不仅成熟,而且在实际场景中有良好的落地率。字节的“豆包”则依托强大的内容生态,具有将语音AI应用到社交、娱乐和短视频生成等消费级场景中的潜力。
在生态布局均不如人的情况下,智谱AI的多模态语音助手,却仍未能体现亮眼的差异,其视频通话功能虽然支持低延迟,更自然的交互,但智力水平的表现,却与文本状态下有着很大差距。
智谱AI在2024年的文生视频领域也展现了雄心,通过其最新发布的CogVideoX v1.5模型和开放平台“清影”,提供了从文本生成视频(T2V)到多模态整合的一系列功能。
然而,与字节、快手等大厂的文生视频大模型相比,“清影”的表现还是太嫩了点。
虽然其主打免费、高清,甚至还在后期加入了AI音效的选项,但从效果上看,其生成的视频不仅古怪、扭曲,并且还有一些很明显的运动错误。
例如,在输入提示词:“一片广阔的海滩上,一个人形机器人和一只猫在一起散步”后,清影生成的视频里,出现了两个机器人,而非一个,同时它们还像螃蟹一样,用一种横着走路的奇怪方式在移动。
更诡异的则是画面中的猫,走着走着,头就变成了尾巴,仿佛器官发生了换位。
智谱AI在B端与C端两个方向上出现了摇摆的情况。
以视频生成为例,字节跳动通过其强大的内容生态,将MagicVideo-V2紧密结合到TikTok和抖音等平台,实现了技术与商业的双向赋能。同样地,快手也可将视频生成嵌入自身的短视频平台。
短视频赛道,是天然离C端最近,也最具亲和力的一条赛道。
而现在的智谱AI,从生态布局来看,其整体战略更偏向于B端市场,服务的客户包括金融、教育、能源和制造业,这些合作大多集中在需要高技术支持和私有化部署的场景中,如工业流程优化、客户服务智能化等。
但今年智谱AI的多线布局的策略,似乎表明了其既希望拓展ToB市场,又想在C端打造多模态互动的超级应用,形成一种“两头抓”的战略。
在总体资源不及OpenAI,也不及BAT等巨头的情况下,这一策略的结果最终导致了其资源分散,难以在一个方向上形成突出的竞争优势。
但实际上,这种多线进军的策略,透露出的是一种在商业化困境下的“无奈突围”。
《中国大模型中标项目监测报告》显示,2024年1-9月份,智谱华章中标的大模型项目达到22个,中标项目披露的中标金额为2472.3万元。22个中标项目主要分布在通信、金融、能源、教科等行业,以央国企客户为主。
从大模型中标项目数量来看,智谱华章可以跟科大讯飞、百度一样,位列第一梯队。但是获得这些项目的过程中,智谱华章付出的“代价”也不小。
这样的“代价”,就是卷到极致的价格战。
今年以来,为了应对同行的价格压制,智谱AI将模型调用价格降低到行业最低水平,如GLM-4-Flash的价格仅0.06元/百万tokens;对比之下,OpenAI的GPT-4 Turbo版本为 10美元/百万tokens,差距超过千倍。在一年的时间里,智谱AI从最初的 0.5元/千tokens 降至当前价格,降幅接近1万倍。
这种激进的降价策略,导致利润空间进一步被压缩。于是,作为大模型厂商的智谱AI,要活下来,只能依靠融资。
过去半年,资本对于国内大模型厂商的态度逐渐冷静下来。如果大模型厂商想要拿到新一轮融资,最重要的就是要证明自己商业化的能力。
而这样的“能力”,反映在具体的业务上,就是一个又一个的“技术奇观”的出现。
过去几个月,智谱AI接连发布了AI生成视频模型清影(Ying)、情感语音模型GLM-4-Voice ,以及AI助理工具AutoGLM 等,这无一不是想通过追逐技术热点,来吸引市场关注的表现。
然而,纵观整个AI行业来看,即使在大模型商业化困难的瓶颈期,除了“多线出击”的策略外,相关的AI企业并不是没有其他选择的余地。
在大模型尚未在C端取得明显盈利化的阶段,是否有AI企业保持住了自身的定力,专注于特定的方向,并取得了突破行业上限的进展?
答案当然是有的,OpenAI的劲敌——Anthropic就是个很好的例子。
与其他多线布局的大厂相比,Anthropic明确聚焦于机制可解释性和AI对齐问题。它的研究目标高度集中,例如通过“宪法AI”的理念改进AI的安全性和伦理性,使其模型的行为更加透明和可控。这种专注不仅增强了其