12月13日,谷歌在推出Gemini 2.0版本的同时,还对外发布了一款创新的多模态直播API,旨在助力开发者打造具备实时音视频流能力的应用程序。
这款API能够实现低延迟的双向交流,覆盖文本、音频和视频等多种交互方式,模拟出接近人类对话的自然流畅体验。用户不仅可以随时打断对话,还能通过摄像头分享实时画面或屏幕录像,与模型进行互动,提出问题。
通过增强视频理解能力,该API拓展了交流的维度,用户可以实时捕捉画面或分享桌面内容,并就相关内容提出疑问。目前,该API已经向开发者开放,同时提供了一个多模态实时助手的演示应用,以供用户体验。以下是演示链接:
此外,该API支持多种工具的集成,开发者仅需一次API调用,即可轻松实现复杂的应用场景。