大模子海浪加快算力竞赛，国产GPU升级“万卡”集群

发布日期：2024-07-04 23:01 点击次数：184

7月3日，总部位于北京的国产GPU企业摩尔线程晓谕其AI旗舰居品夸娥（KUAE）智算集群措置决策已毕紧要升级，从现时的千卡级别大幅延迟至万卡鸿沟。

“AI模子历练的主战场，万卡已成为标配。”摩尔线程首创东说念主兼CEO张建中说。跟着计较量不断攀升，大模子历练亟需超等工场，也即是一个“大且通用”的加快计较平台，从而裁减历练时刻，已毕模子才气的快速迭代。

所谓万卡集群，是指由一万张及以上的计较加快卡（如GPU）构成的高性能计较系统，用以历练基础大模子。这种集群充分整合高性能GPU计较、高性能RDMA网罗、高性能并行文献存储、智算平台等要津技能，将底层基础口头整合成为一台“超等计较机”，可解救千亿级致使万亿级参数鸿沟的大模子历练，有助于大幅压缩大模子历练时刻，以已毕模子才气的快速迭代。

现时，海外科技巨头齐在通过积极部署千卡乃至超万卡鸿沟的计较集群，以确保大模子居品的竞争力。跟着模子参数目从千亿迈向万亿，模子才气愈加泛化，大模子对底层算力的诉求进一步升级，万卡致使超万卡集群成为这一轮大模子竞赛的入场券。

据了解，构建万卡集群并非一万张GPU卡的浅近堆叠，而是一项高度复杂的超等系统工程。它触及超大鸿沟的组网互联、高后果的集群计较、长期领略性和高可用性等诸多技能贫寒。“不错把万卡集群念念象为一个万东说念主团队，团队需要有十分强的通常机制，才能协同把一件事情作念好。”摩尔线程关联悠闲东说念主说，但愿梗概开采一个鸿沟超万卡、场景够通用、生态兼容好的加快计较平台，并优先措置大模子历练的贫寒。

据悉，在集群计较性能方面，全新一代夸娥智算集群已毕单集群鸿沟超万卡，浮点运算才气达到10Exa-Flops，大幅进步单集群计较性能，梗概为万亿参数级别大模子历练提供算力基础。

领略性是推断超万卡集群性能的要津，“早期千卡故障率可能0.1%就不错了，而到万卡要进步到0.01%致使是0.001%，这对硬件筹办、坐蓐制造齐是很大的挑战。”张建中说。领略性方面，夸娥万卡集群平均无故障初始时刻进步15天，最长可已毕大模子领略历练30天以上，周均历练有后果在99%以上。

当日，中国移动通讯集团青海有限公司、中国联通青海公司、北京德说念信科集团、中国动力开采股份有限公司总承包公司、桂林华崛大数据科技有限公司永别就三个万卡集群形势与摩尔线程进行了策略签约，将共开国产GPU集群。

记者：孙奇茹

上一篇：北京成7月寰球最热门标的地，这几家谈区预订量最多

下一篇：杜甫五律《哭严仆射归榇》读记

膜丝

大模子海浪加快算力竞赛，国产GPU升级“万卡”集群