谷歌大半夜搞大事：Gemini 2.0 来了，性能比1.5 Pro快了一倍！

12月11日，谷歌宣布了Gemini 2.0的正式亮相，这款AI模型被誉为谷歌迄今为止最为强大的智能系统。它不仅在性能上实现了质的飞跃，还带来了多模态交互的新纪元，包括原生的图像和音频输出功能，以及一系列创新的原生工具应用。

从对比图中可以明显看出，Gemini 2.0在关键性能测试中相较于前代Gemini 1.5 Pro取得了显著的进步，性能提升巨大，延迟也得到了有效降低。谷歌官方宣称，“在关键性能测试中，Gemini 2.0的速度是1.5 Pro的两倍”。

Gemini 2.0的升级不仅仅体现在性能上，它还引入了一系列创新功能。除了能够处理图像、视频和音频等多模态输入，现在它还能输出多模态内容，如与文本结合的原生图像生成和可定制的多语言文本转语音（TTS）音频。此外，它还支持调用原生工具，包括Google搜索、代码执行以及第三方用户自定义函数等。

Gemini 2.0 Flash在用户界面操作方面进行了多项改进，包括多模态推理、长文本上下文理解、复杂指令的执行和规划、组合函数的调用以及原生工具的使用，同时对延迟问题进行了进一步的优化。

谷歌强调，AI智能体的实际应用是一个充满挑战和机遇的研究领域。他们正在通过一系列原型项目来探索这一领域，旨在帮助人们更高效地完成任务。其中包括对Project Astra的更新，该项目致力于探索通用人工智能（AGI）的未来功能；Project Mariner则从浏览器端出发，探索人机交互的新未来；Jules则是一个面向开发者的AI代码智能体。

从即日起，开发者可以在AI Studio和Vertex AI中体验Gemini 2.0 Flash的实验版本（文本转语音和原生图像生成功能目前仅对早期访问合作伙伴开放，但所有开发者都可以使用多模态输入和文本输出功能，预计将在1月全面开放）。此外，该版本也已经在网页版中对Gemini Advanced用户开放试用，移动版也将在不久后推出。

为了进一步协助开发者构建动态和交互式应用，谷歌还推出了全新的多模态实时API，该API具备实时音频和视频输入能力，并能够使用多种组合工具。

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复