678CHAT AI资讯谷歌新动作：多模态直播API，让AI音视频互动更带感

谷歌新动作：多模态直播API，让AI音视频互动更带感

作者: 678chat 发布: 2024 年 12 月 14 日 125阅读 0评论

12月13日，谷歌在推出Gemini 2.0版本的同时，还对外发布了一款创新的多模态直播API，旨在助力开发者打造具备实时音视频流能力的应用程序。

这款API能够实现低延迟的双向交流，覆盖文本、音频和视频等多种交互方式，模拟出接近人类对话的自然流畅体验。用户不仅可以随时打断对话，还能通过摄像头分享实时画面或屏幕录像，与模型进行互动，提出问题。

通过增强视频理解能力，该API拓展了交流的维度，用户可以实时捕捉画面或分享桌面内容，并就相关内容提出疑问。目前，该API已经向开发者开放，同时提供了一个多模态实时助手的演示应用，以供用户体验。以下是演示链接：

此外，该API支持多种工具的集成，开发者仅需一次API调用，即可轻松实现复杂的应用场景。

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/6048.html

25赞

标签:Gemini 谷歌

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代