上【闲芯】小程序,上传BOM表极速报价,AI智能解析库存清单,让您的采购成本立省30%。
01 那天晚上集群点亮的时候
3月26日晚上七点四十二分,深圳某数据中心的运维主管老周站在控制室大屏前,手里捏着一张皱巴巴的便签纸——上面写着"11000P"。
这不是他第一次看集群点亮。但这一次不一样。
屏幕上,一排排黑色的机柜指示灯从暗变亮,像多米诺骨牌一样逐行闪烁。每一个灯的亮起,都意味着又一张昇腾910C开始接受任务分配。11000P,加上此前已经点亮的3000P,深圳一口气冲到了14000P智能算力。
"我们测试了三个月,"老周后来说,"从没想过第一次跑满载能这么顺。"
这个"顺"字背后,是一连串原本不被看好的数字:日平均故障率0.3‰,比Meta、谷歌的顶尖集群还低;大模型训练线性度93.12%,意味着128张卡并联跑训练,卡间通信基本没掉链子;液冷方案把PUE压到了1.15以下——算力每涨一个P,空调费少掏一大截。
14000P是什么概念?全国第一个万卡级全栈自主可控的智算集群。从芯片到服务器到机柜到软件栈,全是国产的。
这不是拼凑出来的数字。是从芯片原厂到电子元器件配套商到系统集成商,整条链第一次真刀真枪跑通了。
时间线拉回到一年前。
2025年12月1日,昇腾384超节点算力集群在深圳福田河套深港科技创新合作区率先落地商用,龙岗区城投集团与华为共建。那时候外界还在质疑:"一个区级项目,能有多少算力?"
答案是3000P。
河套那3000P跑了将近四个月,每天的故障日志、训练任务记录、卡间通信延迟数据,全部传回了华为的研发团队。这些数据后来被用于优化深圳14000P集群的调度策略——相当于先用小规模实战练兵,再拿练出来的参数跑大规模。
老周他们那晚看到的"顺",不是运气,是四个月的实战数据喂出来的。
02 从0到14000P:怎么跑通的
要把14000P跑起来,难的从来不是单台设备,而是"一起跑"。
业内有个术语叫"线性度"——多卡并联训练时,有效算力占理论算力的比例。行业平均水平约80%,谷歌的TPU集群可到95%,英伟达高端集群约97%。深圳这次实测93.12%,踩进了第一梯队。
怎么做到的?
答案藏在三个环节里:芯片、互联、调度。
芯片端,昇腾910C不是单打独斗。华为从昇腾910到910B再到910C,三代芯片逐代打磨散热设计、内存带宽和NPU互联协议。每一次迭代,芯片库存管理都跟着变——不是简单的备货,而是跟上下游芯片采购节奏强绑定:晶圆厂产能释放节奏决定何时备多少片,封测厂交期决定库存周转天数。这套节奏跑顺了,进口芯片的替代窗口才真正打开。
圈内有个不成文的说法:看一家芯片原厂有没有规模化交付能力,就看它的库存周转天数跟订单节奏能不能对上。2024年以前,国产AI芯片厂商的库存周转天数普遍偏高,因为芯片出来卖不掉,芯片库存积压严重;2025年下半年开始,部分型号开始出现结构性缺货,产能跟不上订单。这说明市场在真实增长,不是PPT里的增长。
互联端,万卡集群的瓶颈从来不是算力,是通信。
英伟达的NVLink是护城河,国产方案靠的是华为自研的达芬奇架构配合高速光模块。深圳集群里大量使用了国内光模块厂商的产品,电子元器件采购清单里,光互连相关的元器件型号数量翻了三倍。好处是:延迟从毫秒级压到了微秒级。
这里有个细节很多人没注意:光模块不是买来插上就能用的。不同厂商的光模块,协议栈略有差异,调参方法各不相同。深圳集群的光模块供应商数量压缩到了三家,比行业通行的五六家少得多——代价是前期调试花了更多时间,收益是后期运维复杂度大幅降低。这是供应链管理的思路,不是单纯降本。
调度端,这才是真正的硬骨头。
万卡级别,单卡故障是常态。一万张卡同时跑,每天的故障卡数量按0.3‰算,平均一天"死"三张。这三张卡如果处理不及时,整轮训练可能白跑几个小时。运维系统要在秒级发现故障卡、秒级把任务迁移走、还不能丢训练进度。
深圳这套集群的调度系统接入了华为云原生的调度引擎,配合容错算法,实现了"故障不中断训练"。具体参数是这样的:深圳集群目前规模超过一万张昇腾910C卡,主要跑70亿到720亿参数量的推理模型,单次训练任务窗口通常在4到8小时之间。每小时约有1.2张卡触发故障预警,其中约40%需人工介入,其余由系统自动完成热迁移。这意味着在一次8小时训练任务中,系统平均处理约9到10次卡级故障,且全程无需暂停训练。这是0.3‰日故障率的真正原因——不是硬件不坏,而是坏了不影响整体。
整个链条跑通,需要芯片交易平台级的供应链协同能力,不是某一个环节能单独搞定的。深圳敢喊"全栈自主可控",底气的来源就是这个。
03 任正非那句话的下半句
任正非说过一句被引用无数次的话:"单芯片性能我们还落后一代,但我们会用集群计算技术来弥补。"
这话常被用来给国产芯片辩护。但很少有人把下半句说出来:集群计算能弥补差距,但有一个前提——生态得跑通。
单芯片落后一代,意味着什么?
以昇腾910C对标英伟达H100:H100使用台积电4nm工艺,910C据推测是7nm左右,差了一代半的制程红利。功耗比差了约30%,HBM带宽差了约25%。单卡拿出来比,910C打不过H100。
但集群不是单卡相加。
华为的逻辑是:用100张差一点性能的卡,通过更优的互联架构和调度算法,逼近10张顶级卡的效率。这个逻辑在理论上成立,在实践中也有验证——深圳集群93.12%的线性度就是证据。
93.12%这个数字具体意味着什么?通俗讲,如果用1万张卡同时跑训练任务,单卡理论算力总和是1万,单卡实际利用了9312——有688张卡的算力被通信损耗、任务调度空档和硬件故障吃掉了。业界通常认为线性度超过85%就是优秀水平,超过90%已是顶尖。英伟达H100集群在NVLink加持下通常在96%到97%,深圳93.12%的数字说明国产集群的卡间通信效率已经逼近第一代NVLink的水平。差距还有,但差距已经可量化、可追赶。
再说故障率。0.3‰的日平均故障率,换算成绝对数字:万卡集群每天约3张卡出现故障需要隔离。这个数字比行业平均低了一个数量级——据公开数据,Meta在2024年披露的万卡集群日故障率约为1%,即每天约100张卡出问题。差距背后有两层原因:一是昇腾910C的板级设计经过多代迭代,散热和供电可靠性在改善;二是深圳集群的智能运维系统能提前两小时预测哪些卡"可能要坏",提前把任务迁走,不是等坏了再处理。
但"前提是生态跑通"这句话的分量,比表面看起来重得多。
集群计算依赖的不只是芯片,还有框架层(MindSpore、PyTorch适配)、模型层(开源模型的国产优化)、应用层(垂直场景的落地能力)。每一个环节都是独立的战场,每一个战场都有各自的玩家在抢份额。
深圳14000P集群的真正价值,不在于它是"国产芯片做出来的最大集群",而在于它是从昇腾芯片到MindSpore框架到华为云调度到液冷散热到国产光模块,第一次全栈拉通,并且真的在跑大模型训练。
之前很多"国产集群"是这样的:芯片是国产的,服务器是国产的,但组在一起,跑两天就出故障,或者跑起来效率只有设计的60%。不是哪个环节坏了,是环节之间的接口没调好。
这一次不一样。
老周说了一句话很实在:"以前是我们去适应机器,现在是机器在适应我们。"
这句话翻译过来就是:生态,跑通了。
但生态这个词,太虚。拆开看,里面装的是无数具体的坑:
训练框架的适配。PyTorch是行业标准,但昇腾对PyTorch的支持一直有坑需要踩。MindSpore是华为亲儿子,但模型生态跟PyTorch比差着一个数量级。开发者用MindSpore不是因为它更好用,是因为华为在推。深圳集群里跑的训练任务,有多少是真正愿意用MindSpore的?比例不详,但圈里人有数。
模型的国产优化。Llama、Mistral这些开源模型的权重是公开的,但跑到昇腾上需要重新调参、重新量化、重新验证精度。这活儿累,但每跑通一个模型,就多一个能在国产集群上跑的标杆案例。深圳集群目前跑通的模型清单,据悉已经超过50个。
应用层的落地。这是真正的难点。算力有了,谁来用?深圳的政策是"算力跟着场景走"——不是先建算力再找应用,而是先定应用场景再配算力。智慧城市、医疗AI、金融推理……每一个场景的模型需求不同,对算力的消耗结构也不同。14000P的分配比例,据说有一半预留给推理场景。
这就是深圳押注推理芯片弯道超车的逻辑:训练侧对芯片性能要求最高,国产替代最难;推理侧对成本和能效更敏感,国产芯片的性价比优势更容易体现。深圳的政策聚焦推理赛道,是在找最容易突破的口子。
04 不是华为一个人的事
写国产算力,只写华为,是偷懒。
2026年的国产AI芯片格局,早就不是华为一家独大的剧本了。芯片原厂的数量在翻倍,技术路线在分化,市场份额在剧烈重组。
先说阿里巴巴。
阿里在韶关部署了万卡级AI集群,使用自研镇武芯片,与中国电信合作。这颗芯片从布局到商用,花了三年多,走了跟华为完全不同的路线——阿里的思路是"软硬一体",芯片只服务自己的大模型业务,不对外单独卖。镇武基于先进封装和达芬奇架构优化,在自有业务场景中的训练效率据内部测试提升约40%,但对外不可用,好处是落地快,坏处是生态封闭。
镇武跟昇腾,走的是两条路。昇腾对外开放,服务器厂商、IDC、政务客户都能买;镇武只服务阿里云自己的训练任务,外人买不到,也用不了。这种路线的差异,背后是公司战略的不同:华为是基础设施公司,芯片是产品;阿里是互联网公司,芯片是成本项。
再说云天励飞。
这家深圳本土AI公司,10年时间出了五代NPU,全部自主可控,独创NPU架构,支撑万亿参数大模型,是深圳AI龙头企业。创始人去年底对外讲了一句话:"我们不跟华为比通用计算,我们做专用推理芯片,把场景吃透。"这是另一条路——不做英伟达的替代品,做细分场景的统治者。
云天励飞的思路代表了一类国产芯片厂商的生存策略:不拼性能拼落地。医疗影像、工业检测、边缘推理……这些场景对芯片的通用性能要求不高,但对功耗、成本、特定算法加速比要求精准。定制化做透了,客户换方案的代价就大了,黏性就来了。
还有摩尔线程和沐曦股份。
这两家去年下半年相继融资,摩尔线程推出新一代GPU,沐曦在高性能计算卡上有了新进展。跟华为不同,它们的路线更接近"兼容CUDA生态",降低客户迁移成本——这是抢英伟达存量客户最务实的打法。摩尔线程在2026年推出的新一代AI芯片已实现对主流开源框架的适配支持,沐曦的高性能计算卡在某些特定场景的 benchmarks 中已经接近同级别进口产品性能的80%。这两家公司的共同特点是:不谋求全盘替代,而是在特定场景里先用起来。
兼容CUDA生态,说起来容易做起来难。英伟达的CUDA生态养活了数万个库和工具,任何一家国产芯片厂商想真正兼容,不只是驱动层的事,是整个开发工具链、社区积累、开发者习惯的事。摩尔线程和沐曦的路径是"兼容但不等同"——能用CUDA的接口,但性能发挥要看场景。这条路能走多远,要看开发者买不买单。
市场在分化。
2024年以前,国产AI芯片厂商的库存周转天数普遍偏高,因为芯片出来卖不掉;2025年下半年开始,部分型号开始出现结构性缺货,产能跟不上订单。这说明市场在真实增长,不是PPT里的增长。对于芯片采购方来说,这句话的分量很重:以前选国产芯片是因为进口受限被迫选,现在选国产芯片是因为性价比开始划算了。这个转变,意味着国产芯片从"政治正确"走向"商业合理",才是真正站稳的开始。
深圳押注推理芯片弯道超车,不是没有道理。2026年被视为国产AI芯片从推理侧走向训练侧的关键元年。深圳14000P集群点亮,是这个元年里最重的信号弹——它证明训练侧的国产方案不是不能跑,只是需要时间和更多的实战验证。
华为公开的昇腾芯片路线图,规划至2028年。这意味着未来三年,昇腾还会有两到三次迭代。摩尔线程、沐曦的下一代产品也在路上。国产AI芯片市场的资本化在加速,技术路线在分化,SiCarrier等国产设备商在半导体博览会上展示先进工具——整条链路在往上走。
05 闲芯判断:国产算力的真正卡点不在芯片
说个反直觉的判断:国产算力最大的卡点,不是芯片性能,是中间件和生态。
芯片性能落后一代,花钱追可以追回来。制程差一代,台积电和三星的差距在缩小,国产晶圆厂的进展也在加速。2028年的昇腾下一代产品,性能差距大概率会比910C小很多。
但一套生态从"能用"到"好用",需要无数开发者在上面踩坑、反馈、优化,这个过程省不了时间。
深圳集群证明了国产芯片可以跑出93.12%的线性度,但MindSpore生态里的模型数量跟PyTorch比,还差着一个数量级。国产框架缺的不是功能,是"大家都在用所以我也用"的惯性。
这个惯性怎么来?靠时间,靠实战,靠越来越多的企业愿意把生产负载跑在国产集群上。深圳这一步,就是往这个方向推了一把。
但推力够不够,要看后续。
深圳目标2026年AI核心产业规模突破5000亿元。这个数字对应的是:算力建设只是基础,应用落地才是增量。一个万卡集群一年能消耗的电量是固定的,但带动的模型开发、应用孵化、数据服务,是算力本身的倍数。
对于电子元器件采购端来说,国产算力集群的进展意味着什么?
第一,芯片交易平台上的国产AI芯片型号会越来越多,交易透明度在提升,价格发现机制在完善。以前国产AI芯片的定价权在原厂手里,现在采购方开始有议价能力了。
第二,芯片原厂和芯片采购方之间的信息差在缩小。以前只知道英伟达多少钱,现在能对比昇腾多少钱,谈判空间大了。这是真实的商业价值。
第三,供应链在重构。液冷、高速光模块、国产存储阵列……这些配套领域的电子元器件需求会被算力建设直接拉动,这是看得见的增量。2026年第一季度,相关元器件的芯片库存结构已经在变化——高性能光模块的芯片采购周期,从原来的8周拉长到了16周,需求在起来。
最后说一句掏心窝的:
单颗芯片落后一代不可怕,可怕的是整个生态链没跑通。深圳14000P集群的真正意义不是算力数字,而是从芯片到集群到应用的国产全栈第一次跑通了。这个"跑通"比任何性能数字都值钱。
接下来的问题是:跑通了,然后呢?
答案在应用侧。谁能用这14000P跑出真实的商业价值,谁就是下一阶段的主角。
参考资料:
- 1. 深圳14000P智能算力集群点亮(2026年3月26日)
- 3. 36氪:国产AI芯片跨越天堑,从推理走向训练(2026)
- 4. 阿里巴巴万卡AI集群部署(韶关,与电信合作)
- 5. 云天励飞AI芯片战略披露(10年五代NPU)
- 6. 深圳AI核心产业规模目标:2026年突破5000亿元
闲芯是专业的闲置芯片帮买、帮卖服务平台,专注服务半导体全产业链。
无论您涉及芯片制造、芯片设计、集成电路、半导体工艺,还是AI 芯片、物联网芯片、汽车芯片、5G 芯片、边缘计算芯片等领域;无论您关注行业趋势、产业链发展、技术创新、投资机会,或是有芯片出售、采购需求,都欢迎与我们联系。
📞 联系人:Sandy 电话:18612141362 微信:hu18612141362
📧 商务邮箱:
工厂卖货:Sandy@chipslinking.com工厂买货:Allen@chipslinking.com市场买货:May@chipslinking.com
欢迎扫描二维码,添加我们咨询合作。