在数字化转型和人工智能迅猛发展的今天,存储技术已成为智能化进程中不可或缺的基础设施。
数据量的爆炸性增长,以及对大模型训练和实时业务分析的需求,使得传统数据中心面临前所未有的挑战,迫切需要向更高性能、更低延迟、更高效的数据管理平台转型。
根据IDC在《构建面向智能化时代的先进存力中心》白皮书中的建议,我们应当“适度超前建设先进存力中心”。
01
在AI时代,存储技术同样占据着举足轻重的地位。
IDC预测,到2024年,中国的数据总生成量将达到39.5ZB,而四年后这个数字将飙升至97.1ZB。
若以目前市场上内存容量最大的手机为参照,1ZB的数据量相当于需要10亿台1TB内存的手机来存储。
数据的激增不仅体现在数量上,更在于类型的多样化,包括结构化、非结构化以及半结构化数据。
面对如此庞大的数据量,存储系统必须具备更大的容量。据数智前线统计,今年前8个月,政企招投标采购中与存储相关的项目已多达数百个,覆盖金融、制造、能源等多个行业。
此外,数据的价值挖掘仍显不足。但在AI和业务场景需求的推动下,对存储系统提出了更高的性能要求,以支持数据的高速读写和分析处理。
“在数智化时代,数据的价值被重新认识。”曙光存储副总裁郭照斌指出,过去存储是被动响应需求,而现在数据的价值被提升到了新的高度,“以前被认为无用的数据,现在通过迭代训练,能够产生智能化的成果,这时人们才开始重视存储。”
过去,业界存在“重算力轻存力”的现象,导致智能算力基础设施的建设忽视了先进存力的建设。
然而,越来越多的实践表明,存储性能对算力性能的发挥有着深远的影响。
尤其是在大模型训练中,仅仅解决算力和数据问题是不够的,很多企业在采购大量GPU后发现,由于网络和存储的瓶颈,难以实现满负荷运转,导致资源浪费和训练效率低下。
由于传统业务对存储性能的需求在百GB级,而大模型训练对存储的需求激增至TB级,存储性能直接关系到GPU的利用率。
有报告指出,在同等GPU算力规模下,存储性能的差异可能导致模型训练周期数倍的差异。
大模型的场景对存力提出了更高的要求,强调高吞吐、高IOPS、高带宽、低延时等极致性能。
存储系统正在向更高吞吐量、更低时延、更高效的数据平台演进,而传统的数据中心需要升级,新形态之一便是建设存算协同的先进存力中心。
郭照斌强调,在数智化时代,存储不再只是被动响应,而是会随着算力的发展协同前进。
中科院院士钱德沛更是明确指出:存储也是一等公民。换言之,在AI时代,没有先进存力,算力也无法充分发挥,两者已成为相辅相成的关系。
今年,中国计算机学会(CCF)首次举办了存储大会,而中国电子工业标准化技术协会也成立了数据存储专业委员会,曙光担任会长单位。业内有观点认为,存储是算法、算力、数据之外,AI基础设施的第四支柱。
不过,郭照斌也提到,在存储标准方面,还有很长的路要走。例如,存储的评价方法、测试方法尚未有统一标准;存储协议也相对陈旧,给应用端带来诸多不便。
02
先进存力,推动中国存储产业发展
构建先进存力中心,成为智能时代解决数据难题的必然趋势。
IDC在白皮书中提到,先进存力中心的技术突破和应用主要体现在EB级平滑扩展能力、多协议支持、先进软件架构能力、多重防护机制、智能化管理平台、液冷等先进技术,共同铸就其高效融合、提质增效、全域流动、安全可靠、绿色低碳等五大特征。
这些特征背后,是当前存储系统需要应对的难题和挑战。
随着数据来源和格式的复杂化,不同存储系统之间产生了数据孤岛,影响了数据的管理和有效利用。而许多传统存储系统在设计时未充分考虑扩展性,难以适应业务发展的需求。
先进存力中心具备足够的灵活性和可扩展性,能够兼容不同架构技术栈,用户可根据自身需求灵活选择技术方案;同时,面对高并发和大数据集的存储需求时,能够平滑扩容。
大容量、高速率、低延迟已成为智能化时代评估存储系统性能的重要指标,但当前存储设备的容量和读写性能成为提质增效的重要瓶颈。先进存力中心要求具备更高的性能,通过提升NVMe全闪存的比重,应用多级数据加速技术等,来实现海量的存储空间、超高的吞吐量和IOPS能力。
数据流动需要攻克跨域存储集群组合管理、数据冷热分级感知、数据跨域网智能流动及跨域无感知访问等关键技术,支撑存力资源的优化布局。
先进存力中心需要支持数据的全域流动,包括数据在集中式、分布式存储之间的跨平台流动,支持云端和本地化数据之间的流动,以及热温冷数据跨形态的流动等。
绿色低功耗也成为先进存力中心的必选项。
IDC数据显示,存储耗能约占数据中心总能耗的35%。IDC中国区副总裁周震刚提到,过往都是算力中心对能耗有比较高的要求,存储和GPU消耗的算力不在一个级别,但随着大模型训练对于存储I/O吞吐的访问猛增,存储的功耗也被提了起来,所以存储对液冷等绿色技术有了更多的需求。
作为先进存力中心概念的倡导者和先行者,曙光存储正在快速适应AI时代存储市场的需要。
2024年6月,曙光存储发布全球首个亿级IOPS集中式全闪存储FlashNexus,成为业界唯一具备百控级扩展能力的集中式存储产品,主要用于金融、运营商、医疗等行业的核心业务系统。
全闪介质已成为行业共识。相比传统的HDD,全闪存介质支持高IOPS、低时延,更适用于AI大模型训练阶段的随机读写场景。
在发布了首个集中式全闪产品的同时,曙光也升级了分布式存储产品——ParaStor全闪存储,主要面向AI应用,依托NVMe全闪的技术优化,单节点带宽最高达到150GB/s、320万IOPS。
ParaStor全闪存储采用业界首创五级加速方案。比如BurstBuffer加速层,只需将关键数据存储在计算节点本地的NVMe盘上,避免大量的网络数据传输和远程存储访问,适合存储和快速读取海量小文件,能够将读取性能提升数倍甚至十倍以上。比如XDS双栈兼容,让GPU直接访问存储,不仅减少了CPU本身的损耗,也缩短了整个I/O通路,降低了延时。
基于分布式带来的扩展能力,曙光ParaStor分布式全闪存储已经在科教、金融、运营商、生信等领域,以及自动驾驶等AI前沿的应用场景中广泛落地。
如今,曙光存储已经形成了FlashNexus集中式存储和ParaStor分布式存储两大产品线。曙光将其分别称为强存和智存,从其字面意思不难理解,集中式存储面向的是金融、运营商等领域的核心业务场景,对性能和可靠性要求高;而以分布式存储为代表的智存面向的是AI等敏态业务需要。
而在这两大不同架构的产品线之间,曙光又推出了通存的方案,打通集中式存储与分布式存储壁垒,让数据无界流动,实现跨平台一键式容灾恢复、跨形态热温冷数据无感流动和跨域资源池全维度视图,以充分提升存储资源利用率,同时更好地支持东数西存、东数西渲、东数西训等应用场景。
通过强存+智存+通存的产品和方案组合,曙光给AI时代提供的全新数据基础设施正在得到越来越多用户的认可。根据IDC今年上半年最新数据显示,曙光的市场增速达到了19.2%,远高于市场平均水平。
03
先进客户,引领最佳实践
位于重庆的西部科学城先进数据中心是东数西算的示范项目,也是成渝枢纽的主节点,通过高密度液冷机架和风冷机架相结合的方式,这里的核心计算设备PUE能做到1.04