国产万卡智算集群破局背后:99.99%超高可用性如何实现?

2026-04-06 21:21:22

走进上海智能算力科技有限公司(下称“智算科技”)位于上海松江区的国产万卡集群智算中心,刚踏入机房大门,浑厚而持续的风扇轰鸣声便扑面而来。目光所及,数万张GPU在机柜里整齐排列、鳞次栉比;高速网络线缆密密麻麻却井然有序,与闪烁着微光的设备指示灯交相辉映,每一处细节都彰显着智算中心的高效运转。

需要特别指出的是,智算科技公司目前已经完成多款国产GPU卡以及多台套国产并行计算系统的软硬件适配。在自主可控的大背景下,该公司对于国产卡算力集群的成功破局对中国发展人工智能产业是一大推动。

能支持大模型训练的万卡算力集群的搭建以及稳定运行的难度众所周知,而采用多家国产芯片异构计算集群搭建和运维则是难上加难。

智算科技智算中心的稳健运转,离不开该公司系统工程中心的硬核支撑——这里汇聚着一群平均年龄不足33岁的青年从业者,怀揣精湛技艺与创新热忱,深耕科技前沿、攻坚技术壁垒,在算力创新的赛道上步履不停。

国产万卡异构算力破局

当前,中国虽有多家GPU算力芯片厂商,但受起步较晚、芯片制程受限等因素影响,各厂商规模普遍较小,亟需稳定的应用场景开展产品验证与技术迭代。

而智算科技的国产智算中心,主动扛起了这一使命,为国产算力芯片搭建起关键的实践应用场景。

智算科技是由上海仪电(集团)有限公司(含云赛智联股份有限公司)牵头,与上海数据集团有限公司、上海市信息投资股份有限公司、上海阶跃星辰智能科技有限公司以及松江区政府(上海松江国有资产投资经营管理集团有限公司)共同发起组建的算力基础设施公司。

目前,智算科技已建成万卡级智算集群,并逐步形成规模化、专业化、集约化运营格局,集群算力规模、性能密度和综合能效均领先全国。

据介绍,该公司算力设备种类齐全,已完成多款GPU卡以及多台套国产并行计算系统的软硬件适配测试。同时,聚焦提升资源管理、任务调度和网络运维水平,该公司建立了专业软件团队,与清华大学等联合开展国产并行计算软件、编程框架、通信库、算子库、等智算关键软件和训推工具链研发,不断提高MFU模型算力利用率。目前已建成上线具备自主知识产权的智算云平台,基于微服务框架实现训推优化、数据集成、模型研发、云平台管理和跨域算力调度等功能服务。

智算科技董事长、总经理孙跃接受澎湃新闻采访时表示,一方面,做多元异构算力一定程度上会带动国产厂商的发展,给国产算力提供一个场景,有助于充分利用国产算力。另一方面,不同的业务和行业对不同芯片有不同的需求。许多国产算力芯片在细分领域具有一定优势,可以通过异构在同一底座和云平台的基础上更好地适配不同垂类和算力基础设施的要求,更好地发挥国产软硬件基础设施的作用。

技术攻坚,集群实现了99.99%的超高可用性

搭建万卡算力集群难,而万卡算力集群要想稳定运行则是难上加难。在大规模训练中,任何关键节点的故障都可能导致整个训练任务中断。无论是GPU本身的高价值、训练任务还是科研时间,损失都不可估量。

智算科技系统工程中心总监、团队负责人胡宝群接受采访时表示,万卡算力稳定运营,意味着故障必然会发生,甚至每天都会发生。当故障发生时,如何快速定位故障,故障后如何快速修复,这个是行业非常重要的挑战。

“我们当前已经实现分钟级甚至秒级的预定位故障,并且能够在5分钟内恢复业务。”胡宝群表示。

据介绍,智算科技的智算中心已经成功实现了集群99.99%的超高可用性(相当于全年总故障时间缩短至1小时内),这一成果有力支撑了某大模型公司等多模态大模型领先全球的训练(成功避免了算力中断可能造成的巨大损失)。

在技术突围方面,智算科技的团队首创“动态感知调度方案”,使训练效率飙升91%,每年为国家节省的算力成本相当于新建3个数据中心,实现了混合架构万卡集群调度技术的自主可控。

这支平均年龄不超过33岁的青年突击队

智算科技的技术团队非常年轻,平均年龄不超过33岁,他们来自互联网、运营商和上海仪电系统,是一群有一定工作经验,技术和业务能力非常强的技术人员组成的攻坚团队。

尽管成员之前有一定技术积累,但三年前开始构建的万卡大模型几乎都是前沿且探索性的,团队也是在整个攻坚过程中形成自己的技术方案,并完成了突破。

胡宝群是智算科技计算部门的第二号员工,整个技术工程团队也是他逐步带领起来的。

“前期团队搭建相对困难,因为真正有万卡集训经验的人主要来自互联网云厂商,所以上海有经验的人较少。所以团队有人来自互联网大厂。后期公司也开始培养第二波和第三波的技术人才。”胡宝群表示。

据悉,这支青年突击队曾连续79天吃住在机房驻守,为了0.1%的效率提升每天熬红双眼反复打磨代码,开展算法攻坚。面对紧急任务,他们打破常规,将线性流程优化为“并行施工+边测边调”,抢占每一秒进度。

“我们每台设备后面会接20多根网线,整套万卡集群,即有近十万根线,实际上建设时会复杂一些。实际运营过程中,我们还需要将1万张调度、协同、故障修复,这相对比较困难。”胡宝群表示,一万张的智算中心故障几乎每刻都在发生,大家精神高度紧张,也需要依赖平台和工具链的建设。此外,团队也需要对接行业前沿技术,比如通过算法预判出现问题的情况,提前介入,确保算力中心的稳定运营。

智算科技系统平台部负责人翟雨佳补充道,“AI人才密度相对稀缺,壁垒也是比较高的。其实,国外的头部AI企业最稀缺的也不是资金,而是人才,我们现在已经具备了一支能够胜任任务或者专业结构合理、技术过硬的AI技术人才,这才是我们最宝贵的资产。”

孙跃也强调,当初万卡集群搭建之时,国内具备万卡建设经验的团队寥寥无几。智算科技一方面积极引进专业人才,另一方面注重在实践中锤炼队伍,在攻坚克难的过程中,将分散的个体人才凝聚成紧密协作的团队,不断提升团队的组织协调能力与整体战斗力。

孙跃表示:“团队需要充分给年轻同志施展才华的空间和舞台,让每位同事充分发挥潜能和潜力。只有每位同事都像小老虎一样,我们才能在整个集群建设、公司发展过程中敢打敢拼敢冲锋。”