人工智能大模型时代,各行各业对计算服务提出各种新的需求,作为“三大件”之一的存储需要怎样应变?对此,华为公司副总裁、数据存储产品线总裁周跃峰有许多切身感受。
“存储的创新是由应用驱动的,上层应用变了,存储一定要变化,否则就不是一个负责任的存储厂商。”在华为全联接大会2024期间,接受《中国科学报》等媒体专访时,周跃峰开门见山。
他说,当前许多用户的AI建设正处于初级或探索阶段,但“数据准备”这件事可以从现在开始。存储行业的创新,也正围绕“数据准备”和“AI-Ready”展开。
众所周知,大模型训练系统对算力需求很大,计算密度空前。与此同时,这类计算对数据吞吐量的要求也与时俱增。
“这对于存储来说,首要就是快速地将数据源源不断送上去。”周跃峰说,以往计算系统对存储是没有“快速”这个要求的,但现在,大规模参数的模型训练同时意味着对海量大数据的学习,计算系统要十倍、数十倍的数据吞吐和带宽。“如果让机器在那儿等数据,那就是空转。”
联想到此前业界戏称“大模型训练的尽头是用电”,周跃峰诙谐地说:“如果存储做不好,我们的训练系统就更‘缺电’了。”
近期,中国移动将华为AI存储用于大模型训练,实现150PB单存储集群、8TB/s带宽和2.3亿IOPS的能力,端到端训练效率提升5%。
“这证明使用AI存储可以达成AI训练不中断、不空转的目标。”周跃峰说,华为和中国移动这一实践,算是为后续更大规模大模型训练“打了样儿”。
“万卡、十万卡的AI训练系统,集群内部网络互联关系很复杂,人们期待存储系统能够跟万卡、十万卡级别的训练系统直连,且能共享存储数据。”周跃峰举例说,美国Meta公司用于训练Llama3的存储系统,基于目前公开的信息是由8100台服务器搭建而成,内部互联、通讯等非常复杂。
他介绍说,华为新推出的AI存储——OceanStor A800,单存储集群(128台设备构成)就能支持十万卡级训练集群,不仅性能得到了提升,空间占用和故障率也大大降低。
“现在用大模型产品,问一句答一句,马上就能得到答案,这是‘快思考’;但其实人区别于机器,人有大量的慢思考,许多问题都需要慢慢梳理逻辑,慢慢想出解决之道。”周跃峰说,要让AI变得更“聪明”,像人一样也有“慢思考”,需要存储发挥作用。
AI怎样产生“慢思考”?他和记者说,重点是推理过程中的每一次思考结果都要记下来:“这样未来再有相同问题就不要重新计算了,可以以存代算,这样总系统就会更快、性价比更高。”
周跃峰称之为“长记忆内存型存储”,在这类存储中,存储作为内存的扩展,以分级的方式实现了长周期的记忆能力,甚至是终生记忆。
“人的一些思考是一定要通过推理慢慢梳理逻辑,过程中有些‘素材’是现成的,只需要把记忆中的内容直接‘剪切’进来就可以了。”周跃峰说,如果每个节点都要重新计算,再加上是在复杂的层层逻辑上计算,“这个‘脑袋’恐怕要炸”。
他特别谈到,推理相对训练而言,是一个“弱算力、强缓存”的需求,就如人类大脑一样,不同脑区的构造和功能有所区分,用于推理的存储也可以再一次进行选择不同类型的存储介质进行“混搭”(如高带宽存储和DDR、SSD等介质协同),从而能够实现以相对经济可靠的方式构造出“漂亮的存储”。
OceanStor A800就集成了这一理念,成为业界首款提供长记忆能力的存储。据介绍,它通过“多级键-值缓存(KV-Cache)机制”将所有的思考结果持久化保存并高效使用,让大模型推理具备长记忆能力,以减少大模型在预填充阶段的重复计算。如此,客户推理的时延可降低近八成,单个计算卡的吞吐量提升约2/3,实现了推理体验提升的同时降低成本。
“人脑有时也记不住一些信息,但能够最终靠查词典、上网查资料来弥补。存储也是这一个道理,没必要都是比较昂贵的、可以即时访问的‘高级内存’,以存代算的系统是可行的。”周跃峰说:“所以推理系统要想做得好,一定要有漂亮的存储。”
“国内一些所谓中高端存储,都没有集成数据安全相关的功能,这让人很不解。”他说,一方面,中国是全世界内勒索病毒发生最频繁的区域,另一方面,中国也是许多企业最不关心数据安全和保护的区域,“令人很困惑”。
周跃峰觉得,存储应从被动应对攻击走向主动全面防护。企业在构建存储系统时要注重建设备份存储和多层防勒索机制,这就好比保险箱在遭到暴力撬锁时,要有发出警报声并再加一把锁的反应。
“我们认为,存储既要有其功能,也要在发生勒索事件时及时‘关门’的能力。”在周跃峰看来,避免人因损害等数据的内生安全,应成为存储的基础要求甚至强制要求,否则会留下重大隐患:“有时候数据的安全问题一旦爆发就是0和1的区别,数据丢了就是丢了。”
在华为全联接大会2024期间,中国工程院院士倪光南在相关主题发言中谈到,智算集群建设就好比构建一个足球冠军团队,不仅需要有优秀球员,还需要球员之间的协同和配合以达到最高效能。智算集群是一个复杂工程系统,而不是简单的软硬件的堆砌,它要求“3+1”算力体系,即存、算、网和服务的紧密协同。
他说,也正是基于复杂工程系统思维,智算集群在算力规模、算力利用率、集群可靠性等关键指标上,才能持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和物理失效问题。
“以国内刚刚建成的某运营商超大规模集群为例,它共含近2万张算卡,2000多台智算设备,近8万根线多台RoCE高速交换机,以及800多台通用计算、存储设备,10万+光模块占用1千多个机柜。数量巨大的这些设备之间相互交织互联,任何一个关键点出现一些明显的异常问题都可能会影响训练任务中断,“一卡断,万卡停”。
“一个典型的超大规模集群一年的经营成本超过亿元,假设由于各种单点故障导致了训练时间上5%的浪费,都会带来上千万元的直接经济损失。”倪光南说。
周跃峰对上述观点无比认同。“西方发达国家在构建AI基础设施的时候,是存、算、网协同发展的。”他谈到,英伟达构建的AI超级计算机——DGX SuperPOD,不单单是靠GPU,它收购了Mellanox这家网络公司,同时跟许多存储厂商合作,搭建了许多私有协议,最终才搭建出了这台全球超算排名前十的“巨无霸”。
“如果有所谓专家只是学计算机的,不懂网络、不知存储,他一定不能领导整个IT基础设施的建设和发展。”周跃峰说。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的全部作品,网站转载,请在正文上面注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:。
FIE Viewpoint:中国科学院理化技术研究所及清华大学双聘教授刘静——液态金属印刷为第三代半导体制造业节能开辟新路
手机站二维码