在人工智能领域,谷歌再次掀起波澜。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在近期的一场发布会上宣布了一个重大消息:谷歌开源了其最新的多模态大模型——Gemma-3。这一模型以低成本和高性能的显著优势,迅速吸引了全球科技界的关注。
Gemma-3为用户提供了四种不同参数规模的版本,参数数量分别为10亿、40亿、120亿和270亿。其中最令人瞩目的是270亿参数的版本,它仅需一张H100显卡即可实现高效推理。相比之下,同类模型通常需要十倍甚至更多的算力,这使得Gemma-3成为目前算力要求最低的高性能模型之一。
在性能测试中,Gemma-3的表现令人瞩目。它在各类对话模型的评比中仅次于知名的DeepSeek模型,超越了OpenAI的o3-mini和Llama3等多个热门模型。Gemma-3的架构延续了前两代的通用解码器Transformer设计,但谷歌在其基础上加入了众多创新和优化。为了解决长上下文带来的内存问题,Gemma-3采用了局部与全局自注意力层交错的架构,显著降低了内存占用。
在上下文处理能力方面,Gemma-3支持的上下文长度扩展到了128Ktoken,为处理长文本提供了更好的支持。此外,Gemma-3还具备强大的多模态能力,能够同时处理文本和图像。它集成了基于VisionTransformer的视觉编码器,有效减少了图像处理的计算成本。
在训练过程中,Gemma-3使用了更多的token预算,特别是在270亿参数模型中使用了14T的token量。谷歌还引入了多语言数据,以增强模型的语言处理能力。Gemma-3支持140种语言,其中35种语言可以直接使用。此外,Gemma-3采用了先进的知识蒸馏技术,在训练后期通过强化学习优化模型表现,尤其是在帮助性、推理能力和多语言能力等方面取得了显著提升。
经过评测,Gemma-3在多模态任务上表现优异,长文本处理能力也令人印象深刻,达到了66%的准确率。在对话能力评估中,Gemma-3的表现也名列前茅,显示了其在各项任务中的综合实力。
地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
划重点:
🔍 Gemma-3是谷歌最新开源的多模态大模型,参数范围从10亿到270亿,且算力需求降低10倍。
💡 模型采用创新的架构设计,有效处理长上下文和多模态数据,支持文本与图像的同时处理。
🌐 Gemma-3支持140种语言的处理能力,经过训练优化后在多项任务中表现优异,展现了强大的综合能力。