678CHAT AI资讯浪潮信息新推源2.0-M32大模型，4bit/8bit版：只要23GB显存，性能直逼LLaMA3！

浪潮信息新推源2.0-M32大模型，4bit/8bit版：只要23GB显存，性能直逼LLaMA3！

作者: 678chat 发布: 2024 年 8 月 24 日 171阅读 0评论

8月23日，浪潮信息宣布推出其全新力作——源2.0-M32大模型的4bit和8bit量化版本。这一技术突破被宣称在性能上与拥有700亿参数的LLaMA3开源大模型不相上下。

在性能参数上，4bit量化版在推理运行时的显存需求仅为23.27GB，每处理一个token的算力需求大约是1.9 GFLOPs。这一数字显著低于同等规模的LLaMA3-70B大模型，后者的显存需求高达160GB，算力需求为140GFLOPs，是源2.0-M32量化版的80倍。

浪潮信息表示，源2.0-M32量化版的推出，是为了在不牺牲模型性能的前提下，通过将模型精度量化至int4和int8级别，显著降低大模型的计算资源需求，从而提升模型的模算效率。

源2.0-M32大模型作为浪潮信息"源2.0"系列的尖端产品，采用了包含32个专家的混合专家模型（MoE）架构，其激活参数达到了37亿。

在性能评测中，源2.0-M32量化版在MATH（数学竞赛）和ARC-C（科学推理）任务上的表现，甚至超越了700亿参数规模的LLaMA3大模型。

值得注意的是，源2.0-M32量化版已经对外开源，感兴趣的开发者和研究者可以通过以下链接下载体验：

Hugging Face平台下载链接：

源2.0-M32 4bit量化版：点击这里

源2.0-M32 8bit量化版：点击这里

modelscope平台下载链接：

源2.0-M32 4bit量化版：点击这里

源2.0-M32 8bit量化版：点击这里

这一开源举措无疑将为人工智能领域的研究和应用带来新的活力，同时也为大模型的普及和应用开辟了新的道路。

本文来自网络，不代表678CHAT立场，转载请注明出处：https://www.678chat.com/ai/1825.html

24赞

标签:人工智能大模型

发表回复取消回复