在人工智能领域,一场技术革新正在悄然展开。日前,魔乐社区(Modelers)正式对外发布了由阶跃星辰研发的两款开源多模态大模型——Step-Video 和 Step-Audio。这两款模型的推出,无疑为开发者和企业用户带来了更为强大的 AI 工具,有望在视频生成和语音交互领域掀起新的浪潮。
Step-Video 模型的全名为 Step-Video-T2V,其参数量高达 300 亿,堪称全球最大开源视频生成模型。该模型能够直接生成 204 帧、540P 分辨率的高质量视频,无论是在指令遵循、运动平滑性、物理合理性还是美感方面,都展现出了卓越的表现,超越了市场上现有的顶尖开源视频模型。与此同时,Step-Audio 作为业内首款能够生成多种情感、方言、语言、唱腔和个性化风格语音的大模型,其发布标志着 AI 语音交互领域迈出了重要的一步。
图源备注:图片由 AI 生成,图片授权服务商 Midjourney
值得一提的是,这两款模型是基于华为昇腾 CANN 异构计算架构和昇腾服务器进行适配的。开发者和企业用户可以在魔乐社区中轻松下载和体验这些模型。为了进一步降低使用门槛,魔乐社区还提供了免费算力支持,使用户无需复杂的环境搭建,即可在线进行模型推理,快速验证他们的 AI 方案。
阶跃星辰的开源模型一经推出,便受到了多个行业标杆企业的高度关注。包括天数智芯、阿里云、火山引擎、TCL 等在内的众多厂商纷纷接入这一开源生态,展现出其在行业内的强大吸引力。据透露,阶跃星辰计划在 3 月份推出新的图生视频模型,进一步丰富其产品线,为市场带来更多惊喜。
华为昇腾与阶跃星辰的此次合作,不仅极大地拓展了多模态 AI 模型的应用场景,更为开发者提供了更为强大的工具,有力地推动了整个行业的技术进步。随着这些开源模型的广泛应用,未来在视频和语音领域,我们或许将见证更多令人惊叹的创新成果。