678CHAT AI资讯 谷歌新动作:多模态直播API,让AI音视频互动更带感

谷歌新动作:多模态直播API,让AI音视频互动更带感

12月13日,谷歌在推出Gemini 2.0版本的同时,还对外发布了一款创新的多模态直播API,旨在助力开发者打造具备实时音视频流能力的应用程序。

谷歌新动作:多模态直播API,让AI音视频互动更带感插图

这款API能够实现低延迟的双向交流,覆盖文本、音频和视频等多种交互方式,模拟出接近人类对话的自然流畅体验。用户不仅可以随时打断对话,还能通过摄像头分享实时画面或屏幕录像,与模型进行互动,提出问题。

通过增强视频理解能力,该API拓展了交流的维度,用户可以实时捕捉画面或分享桌面内容,并就相关内容提出疑问。目前,该API已经向开发者开放,同时提供了一个多模态实时助手的演示应用,以供用户体验。以下是演示链接:

此外,该API支持多种工具的集成,开发者仅需一次API调用,即可轻松实现复杂的应用场景。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/6048.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部