深圳的凌晟,一块显卡都没有。
这不是设计失误。当全世界最快的三台超算——美国的峰顶(El Capitan)、前沿(Frontier)、曙光(Aurora)——都在靠GPU堆出算力时,深圳国家超算中心选择了一条完全不同的路。
2026年4月,凌晟系统完成第一阶段测试,对外公布目标:完全建成后持续算力超过2 EFLOPS——超越峰顶超算的实测成绩(1.742 EFLOPS),问鼎世界第一。而且,整套系统不含一颗进口芯片。
图片来源:Unsplash / Kevin Ache
这颗CPU有多猛
凌晟的算力来源是一款叫做LX2的处理器,基于华为鲲鹏服务器平台,采用ARMv9架构。
一颗LX2有304个计算核心,配合8组32GB的HBM高带宽内存——单颗芯片带着256GB高速内存。这个配置放在CPU里极为罕见:HBM是给AI训练芯片准备的,英伟达H100每颗才配80GB。
2 EFLOPS是什么概念?大约相当于2.4万张顶级显卡同时满载运算的算力——而凌晟一块显卡都没用。
完整的凌晟计划装下20,480个计算节点,每个节点跑两颗LX2,合计约4.7万颗处理器,分布在92个机柜里。网络侧是一个百万端口互联系统,带宽10 Tbps,另有650 PB存储。
第一阶段完成测试的,是100台华为鲲鹏服务器,约12,800个核心——规模上还只是个原型。
没有显卡,不是选择
这里有个显而易见的问题:为什么不用GPU?
过去十年,高性能计算的主流方向一直是GPU加速。峰顶超算用的AMD MI300A,把CPU核和GPU核封装进同一块芯片;前沿超算每个CPU连着四块AMD显卡。GPU的并行计算能力,恰好是AI训练和科学模拟的最强引擎。
凌晟选择"纯CPU",不是因为CPU更适合,而是因为只有CPU可以用。
英伟达H100、H200在2023年就被列入对华出口管制;AMD旗舰计算卡紧随其后;英特尔高性能计算芯片同样受限。国内能拿到的高性能算力底座,是华为鲲鹏和昇腾——凌晟选了前者。
深圳市科技创新局的官方说法是:这套系统"从芯片、存储到网络,全面实现自主可控"——也就是说,不管外部形势怎么变,凌晟不会因为某国突然断供零件而停工。
图片来源:Unsplash / BoliviaInteligente
2 EFLOPS能信吗
峰顶超算的理论峰值是2.79 EFLOPS,但实测成绩只有1.742 EFLOPS——理论和真实之间,通常有三四成的折损。
凌晟宣称的2 EFLOPS是"持续性能",即实测成绩的目标。如果属实,将超越当前世界第一。
但问题还没解答完:目前完成测试的只是第一阶段原型,第二阶段的4.7万颗CPU何时落地,尚无公开时间表——有分析认为,全面投入运营最早在2029年。
凌晟也没有宣布参加TOP500排名。
中国有多少"隐形超算"
2021年之后,中国超算几乎从全球TOP500榜单上消失了。
不是没有强机器。多家国家超算中心被列入美国实体清单后,无法使用TOP500评测所需的相关美国技术,加上信息安全考量,官方机构普遍选择不提交数据。今年的榜单里,中国的公开算力份额不到全球2%。
但多位高性能计算领域的研究者认为,中国实际运行的算力远高于此——凌晟公布之前,可能已有若干更强的系统在低调运行,从未出现在任何公开排名里。
这让凌晟的意义变得微妙:它不一定是中国最强的超算,而是中国选择让外界看到的那一台。
图片来源:Unsplash / Compare Fibre
4.7万颗自研CPU跑出2 EFLOPS,证明被封锁之后还能造出这个东西。但凌晟能不能高效训练AI大模型,没有人公开测过。
HBM让LX2在内存带宽上有了竞争力,但深度学习的矩阵乘法,至今仍是GPU的主场。凌晟的强项(分子模拟、流体力学、气候建模)可能没问题——但这不是现在全球算力竞赛的主战场。
发布会没有提这个问题。