678CHAT AI资讯 浪潮信息新推源2.0-M32大模型,4bit/8bit版:只要23GB显存,性能直逼LLaMA3!

浪潮信息新推源2.0-M32大模型,4bit/8bit版:只要23GB显存,性能直逼LLaMA3!

8月23日,浪潮信息宣布推出其全新力作——源2.0-M32大模型的4bit和8bit量化版本。这一技术突破被宣称在性能上与拥有700亿参数的LLaMA3开源大模型不相上下。

浪潮信息新推源2.0-M32大模型,4bit/8bit版:只要23GB显存,性能直逼LLaMA3!插图

在性能参数上,4bit量化版在推理运行时的显存需求仅为23.27GB,每处理一个token的算力需求大约是1.9 GFLOPs。这一数字显著低于同等规模的LLaMA3-70B大模型,后者的显存需求高达160GB,算力需求为140GFLOPs,是源2.0-M32量化版的80倍。

浪潮信息表示,源2.0-M32量化版的推出,是为了在不牺牲模型性能的前提下,通过将模型精度量化至int4和int8级别,显著降低大模型的计算资源需求,从而提升模型的模算效率。

源2.0-M32大模型作为浪潮信息"源2.0"系列的尖端产品,采用了包含32个专家的混合专家模型(MoE)架构,其激活参数达到了37亿。

在性能评测中,源2.0-M32量化版在MATH(数学竞赛)和ARC-C(科学推理)任务上的表现,甚至超越了700亿参数规模的LLaMA3大模型。

值得注意的是,源2.0-M32量化版已经对外开源,感兴趣的开发者和研究者可以通过以下链接下载体验:

Hugging Face平台下载链接:

  • 源2.0-M32 4bit量化版:点击这里

  • 源2.0-M32 8bit量化版:点击这里

modelscope平台下载链接:

  • 源2.0-M32 4bit量化版:点击这里

  • 源2.0-M32 8bit量化版:点击这里

这一开源举措无疑将为人工智能领域的研究和应用带来新的活力,同时也为大模型的普及和应用开辟了新的道路。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/1825.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部