12月11日,谷歌宣布了Gemini 2.0的正式亮相,这款AI模型被誉为谷歌迄今为止最为强大的智能系统。它不仅在性能上实现了质的飞跃,还带来了多模态交互的新纪元,包括原生的图像和音频输出功能,以及一系列创新的原生工具应用。
从对比图中可以明显看出,Gemini 2.0在关键性能测试中相较于前代Gemini 1.5 Pro取得了显著的进步,性能提升巨大,延迟也得到了有效降低。谷歌官方宣称,“在关键性能测试中,Gemini 2.0的速度是1.5 Pro的两倍”。
Gemini 2.0的升级不仅仅体现在性能上,它还引入了一系列创新功能。除了能够处理图像、视频和音频等多模态输入,现在它还能输出多模态内容,如与文本结合的原生图像生成和可定制的多语言文本转语音(TTS)音频。此外,它还支持调用原生工具,包括Google搜索、代码执行以及第三方用户自定义函数等。
Gemini 2.0 Flash在用户界面操作方面进行了多项改进,包括多模态推理、长文本上下文理解、复杂指令的执行和规划、组合函数的调用以及原生工具的使用,同时对延迟问题进行了进一步的优化。
谷歌强调,AI智能体的实际应用是一个充满挑战和机遇的研究领域。他们正在通过一系列原型项目来探索这一领域,旨在帮助人们更高效地完成任务。其中包括对Project Astra的更新,该项目致力于探索通用人工智能(AGI)的未来功能;Project Mariner则从浏览器端出发,探索人机交互的新未来;Jules则是一个面向开发者的AI代码智能体。
从即日起,开发者可以在AI Studio和Vertex AI中体验Gemini 2.0 Flash的实验版本(文本转语音和原生图像生成功能目前仅对早期访问合作伙伴开放,但所有开发者都可以使用多模态输入和文本输出功能,预计将在1月全面开放)。此外,该版本也已经在网页版中对Gemini Advanced用户开放试用,移动版也将在不久后推出。
为了进一步协助开发者构建动态和交互式应用,谷歌还推出了全新的多模态实时API,该API具备实时音频和视频输入能力,并能够使用多种组合工具。