8月23日,浪潮信息宣布推出其全新力作——源2.0-M32大模型的4bit和8bit量化版本。这一技术突破被宣称在性能上与拥有700亿参数的LLaMA3开源大模型不相上下。
在性能参数上,4bit量化版在推理运行时的显存需求仅为23.27GB,每处理一个token的算力需求大约是1.9 GFLOPs。这一数字显著低于同等规模的LLaMA3-70B大模型,后者的显存需求高达160GB,算力需求为140GFLOPs,是源2.0-M32量化版的80倍。
浪潮信息表示,源2.0-M32量化版的推出,是为了在不牺牲模型性能的前提下,通过将模型精度量化至int4和int8级别,显著降低大模型的计算资源需求,从而提升模型的模算效率。
源2.0-M32大模型作为浪潮信息"源2.0"系列的尖端产品,采用了包含32个专家的混合专家模型(MoE)架构,其激活参数达到了37亿。
在性能评测中,源2.0-M32量化版在MATH(数学竞赛)和ARC-C(科学推理)任务上的表现,甚至超越了700亿参数规模的LLaMA3大模型。
值得注意的是,源2.0-M32量化版已经对外开源,感兴趣的开发者和研究者可以通过以下链接下载体验:
Hugging Face平台下载链接:
源2.0-M32 4bit量化版:点击这里
源2.0-M32 8bit量化版:点击这里
modelscope平台下载链接:
源2.0-M32 4bit量化版:点击这里
源2.0-M32 8bit量化版:点击这里
这一开源举措无疑将为人工智能领域的研究和应用带来新的活力,同时也为大模型的普及和应用开辟了新的道路。