当前位置：首页>深圳>深圳万卡集群点亮的真相:不是算力数字,是一条链跑通了

深圳万卡集群点亮的真相:不是算力数字,是一条链跑通了

2026-07-30 14:12:56

上【闲芯】小程序，上传BOM表极速报价，AI智能解析库存清单，让您的采购成本立省30%。

01 那天晚上集群点亮的时候

3月26日晚上七点四十二分，深圳某数据中心的运维主管老周站在控制室大屏前，手里捏着一张皱巴巴的便签纸——上面写着"11000P"。

这不是他第一次看集群点亮。但这一次不一样。

屏幕上，一排排黑色的机柜指示灯从暗变亮，像多米诺骨牌一样逐行闪烁。每一个灯的亮起，都意味着又一张昇腾910C开始接受任务分配。11000P，加上此前已经点亮的3000P，深圳一口气冲到了14000P智能算力。

"我们测试了三个月，"老周后来说，"从没想过第一次跑满载能这么顺。"

这个"顺"字背后，是一连串原本不被看好的数字：日平均故障率0.3‰，比Meta、谷歌的顶尖集群还低；大模型训练线性度93.12%，意味着128张卡并联跑训练，卡间通信基本没掉链子；液冷方案把PUE压到了1.15以下——算力每涨一个P，空调费少掏一大截。

14000P是什么概念？全国第一个万卡级全栈自主可控的智算集群。从芯片到服务器到机柜到软件栈，全是国产的。

这不是拼凑出来的数字。是从芯片原厂到电子元器件配套商到系统集成商，整条链第一次真刀真枪跑通了。

时间线拉回到一年前。

2025年12月1日，昇腾384超节点算力集群在深圳福田河套深港科技创新合作区率先落地商用，龙岗区城投集团与华为共建。那时候外界还在质疑："一个区级项目，能有多少算力？"

答案是3000P。

河套那3000P跑了将近四个月，每天的故障日志、训练任务记录、卡间通信延迟数据，全部传回了华为的研发团队。这些数据后来被用于优化深圳14000P集群的调度策略——相当于先用小规模实战练兵，再拿练出来的参数跑大规模。

老周他们那晚看到的"顺"，不是运气，是四个月的实战数据喂出来的。

02 从0到14000P：怎么跑通的

要把14000P跑起来，难的从来不是单台设备，而是"一起跑"。

业内有个术语叫"线性度"——多卡并联训练时，有效算力占理论算力的比例。行业平均水平约80%，谷歌的TPU集群可到95%，英伟达高端集群约97%。深圳这次实测93.12%，踩进了第一梯队。

怎么做到的？

答案藏在三个环节里：芯片、互联、调度。

芯片端，昇腾910C不是单打独斗。华为从昇腾910到910B再到910C，三代芯片逐代打磨散热设计、内存带宽和NPU互联协议。每一次迭代，芯片库存管理都跟着变——不是简单的备货，而是跟上下游芯片采购节奏强绑定：晶圆厂产能释放节奏决定何时备多少片，封测厂交期决定库存周转天数。这套节奏跑顺了，进口芯片的替代窗口才真正打开。

圈内有个不成文的说法：看一家芯片原厂有没有规模化交付能力，就看它的库存周转天数跟订单节奏能不能对上。2024年以前，国产AI芯片厂商的库存周转天数普遍偏高，因为芯片出来卖不掉，芯片库存积压严重；2025年下半年开始，部分型号开始出现结构性缺货，产能跟不上订单。这说明市场在真实增长，不是PPT里的增长。

互联端，万卡集群的瓶颈从来不是算力，是通信。

英伟达的NVLink是护城河，国产方案靠的是华为自研的达芬奇架构配合高速光模块。深圳集群里大量使用了国内光模块厂商的产品，电子元器件采购清单里，光互连相关的元器件型号数量翻了三倍。好处是：延迟从毫秒级压到了微秒级。

这里有个细节很多人没注意：光模块不是买来插上就能用的。不同厂商的光模块，协议栈略有差异，调参方法各不相同。深圳集群的光模块供应商数量压缩到了三家，比行业通行的五六家少得多——代价是前期调试花了更多时间，收益是后期运维复杂度大幅降低。这是供应链管理的思路，不是单纯降本。

调度端，这才是真正的硬骨头。

万卡级别，单卡故障是常态。一万张卡同时跑，每天的故障卡数量按0.3‰算，平均一天"死"三张。这三张卡如果处理不及时，整轮训练可能白跑几个小时。运维系统要在秒级发现故障卡、秒级把任务迁移走、还不能丢训练进度。

深圳这套集群的调度系统接入了华为云原生的调度引擎，配合容错算法，实现了"故障不中断训练"。具体参数是这样的：深圳集群目前规模超过一万张昇腾910C卡，主要跑70亿到720亿参数量的推理模型，单次训练任务窗口通常在4到8小时之间。每小时约有1.2张卡触发故障预警，其中约40%需人工介入，其余由系统自动完成热迁移。这意味着在一次8小时训练任务中，系统平均处理约9到10次卡级故障，且全程无需暂停训练。这是0.3‰日故障率的真正原因——不是硬件不坏，而是坏了不影响整体。

整个链条跑通，需要芯片交易平台级的供应链协同能力，不是某一个环节能单独搞定的。深圳敢喊"全栈自主可控"，底气的来源就是这个。

03 任正非那句话的下半句

任正非说过一句被引用无数次的话："单芯片性能我们还落后一代，但我们会用集群计算技术来弥补。"

这话常被用来给国产芯片辩护。但很少有人把下半句说出来：集群计算能弥补差距，但有一个前提——生态得跑通。

单芯片落后一代，意味着什么？

以昇腾910C对标英伟达H100：H100使用台积电4nm工艺，910C据推测是7nm左右，差了一代半的制程红利。功耗比差了约30%，HBM带宽差了约25%。单卡拿出来比，910C打不过H100。

但集群不是单卡相加。

华为的逻辑是：用100张差一点性能的卡，通过更优的互联架构和调度算法，逼近10张顶级卡的效率。这个逻辑在理论上成立，在实践中也有验证——深圳集群93.12%的线性度就是证据。

93.12%这个数字具体意味着什么？通俗讲，如果用1万张卡同时跑训练任务，单卡理论算力总和是1万，单卡实际利用了9312——有688张卡的算力被通信损耗、任务调度空档和硬件故障吃掉了。业界通常认为线性度超过85%就是优秀水平，超过90%已是顶尖。英伟达H100集群在NVLink加持下通常在96%到97%，深圳93.12%的数字说明国产集群的卡间通信效率已经逼近第一代NVLink的水平。差距还有，但差距已经可量化、可追赶。

再说故障率。0.3‰的日平均故障率，换算成绝对数字：万卡集群每天约3张卡出现故障需要隔离。这个数字比行业平均低了一个数量级——据公开数据，Meta在2024年披露的万卡集群日故障率约为1%，即每天约100张卡出问题。差距背后有两层原因：一是昇腾910C的板级设计经过多代迭代，散热和供电可靠性在改善；二是深圳集群的智能运维系统能提前两小时预测哪些卡"可能要坏"，提前把任务迁走，不是等坏了再处理。

但"前提是生态跑通"这句话的分量，比表面看起来重得多。

集群计算依赖的不只是芯片，还有框架层（MindSpore、PyTorch适配）、模型层（开源模型的国产优化）、应用层（垂直场景的落地能力）。每一个环节都是独立的战场，每一个战场都有各自的玩家在抢份额。

深圳14000P集群的真正价值，不在于它是"国产芯片做出来的最大集群"，而在于它是从昇腾芯片到MindSpore框架到华为云调度到液冷散热到国产光模块，第一次全栈拉通，并且真的在跑大模型训练。

之前很多"国产集群"是这样的：芯片是国产的，服务器是国产的，但组在一起，跑两天就出故障，或者跑起来效率只有设计的60%。不是哪个环节坏了，是环节之间的接口没调好。

这一次不一样。

老周说了一句话很实在："以前是我们去适应机器，现在是机器在适应我们。"

这句话翻译过来就是：生态，跑通了。

但生态这个词，太虚。拆开看，里面装的是无数具体的坑：

训练框架的适配。PyTorch是行业标准，但昇腾对PyTorch的支持一直有坑需要踩。MindSpore是华为亲儿子，但模型生态跟PyTorch比差着一个数量级。开发者用MindSpore不是因为它更好用，是因为华为在推。深圳集群里跑的训练任务，有多少是真正愿意用MindSpore的？比例不详，但圈里人有数。

模型的国产优化。Llama、Mistral这些开源模型的权重是公开的，但跑到昇腾上需要重新调参、重新量化、重新验证精度。这活儿累，但每跑通一个模型，就多一个能在国产集群上跑的标杆案例。深圳集群目前跑通的模型清单，据悉已经超过50个。

应用层的落地。这是真正的难点。算力有了，谁来用？深圳的政策是"算力跟着场景走"——不是先建算力再找应用，而是先定应用场景再配算力。智慧城市、医疗AI、金融推理……每一个场景的模型需求不同，对算力的消耗结构也不同。14000P的分配比例，据说有一半预留给推理场景。

这就是深圳押注推理芯片弯道超车的逻辑：训练侧对芯片性能要求最高，国产替代最难；推理侧对成本和能效更敏感，国产芯片的性价比优势更容易体现。深圳的政策聚焦推理赛道，是在找最容易突破的口子。

04 不是华为一个人的事

写国产算力，只写华为，是偷懒。

2026年的国产AI芯片格局，早就不是华为一家独大的剧本了。芯片原厂的数量在翻倍，技术路线在分化，市场份额在剧烈重组。

先说阿里巴巴。

阿里在韶关部署了万卡级AI集群，使用自研镇武芯片，与中国电信合作。这颗芯片从布局到商用，花了三年多，走了跟华为完全不同的路线——阿里的思路是"软硬一体"，芯片只服务自己的大模型业务，不对外单独卖。镇武基于先进封装和达芬奇架构优化，在自有业务场景中的训练效率据内部测试提升约40%，但对外不可用，好处是落地快，坏处是生态封闭。

镇武跟昇腾，走的是两条路。昇腾对外开放，服务器厂商、IDC、政务客户都能买；镇武只服务阿里云自己的训练任务，外人买不到，也用不了。这种路线的差异，背后是公司战略的不同：华为是基础设施公司，芯片是产品；阿里是互联网公司，芯片是成本项。

再说云天励飞。

这家深圳本土AI公司，10年时间出了五代NPU，全部自主可控，独创NPU架构，支撑万亿参数大模型，是深圳AI龙头企业。创始人去年底对外讲了一句话："我们不跟华为比通用计算，我们做专用推理芯片，把场景吃透。"这是另一条路——不做英伟达的替代品，做细分场景的统治者。

云天励飞的思路代表了一类国产芯片厂商的生存策略：不拼性能拼落地。医疗影像、工业检测、边缘推理……这些场景对芯片的通用性能要求不高，但对功耗、成本、特定算法加速比要求精准。定制化做透了，客户换方案的代价就大了，黏性就来了。

还有摩尔线程和沐曦股份。

这两家去年下半年相继融资，摩尔线程推出新一代GPU，沐曦在高性能计算卡上有了新进展。跟华为不同，它们的路线更接近"兼容CUDA生态"，降低客户迁移成本——这是抢英伟达存量客户最务实的打法。摩尔线程在2026年推出的新一代AI芯片已实现对主流开源框架的适配支持，沐曦的高性能计算卡在某些特定场景的 benchmarks 中已经接近同级别进口产品性能的80%。这两家公司的共同特点是：不谋求全盘替代，而是在特定场景里先用起来。

兼容CUDA生态，说起来容易做起来难。英伟达的CUDA生态养活了数万个库和工具，任何一家国产芯片厂商想真正兼容，不只是驱动层的事，是整个开发工具链、社区积累、开发者习惯的事。摩尔线程和沐曦的路径是"兼容但不等同"——能用CUDA的接口，但性能发挥要看场景。这条路能走多远，要看开发者买不买单。

市场在分化。

2024年以前，国产AI芯片厂商的库存周转天数普遍偏高，因为芯片出来卖不掉；2025年下半年开始，部分型号开始出现结构性缺货，产能跟不上订单。这说明市场在真实增长，不是PPT里的增长。对于芯片采购方来说，这句话的分量很重：以前选国产芯片是因为进口受限被迫选，现在选国产芯片是因为性价比开始划算了。这个转变，意味着国产芯片从"政治正确"走向"商业合理"，才是真正站稳的开始。

深圳押注推理芯片弯道超车，不是没有道理。2026年被视为国产AI芯片从推理侧走向训练侧的关键元年。深圳14000P集群点亮，是这个元年里最重的信号弹——它证明训练侧的国产方案不是不能跑，只是需要时间和更多的实战验证。

华为公开的昇腾芯片路线图，规划至2028年。这意味着未来三年，昇腾还会有两到三次迭代。摩尔线程、沐曦的下一代产品也在路上。国产AI芯片市场的资本化在加速，技术路线在分化，SiCarrier等国产设备商在半导体博览会上展示先进工具——整条链路在往上走。

05 闲芯判断：国产算力的真正卡点不在芯片

说个反直觉的判断：国产算力最大的卡点，不是芯片性能，是中间件和生态。

芯片性能落后一代，花钱追可以追回来。制程差一代，台积电和三星的差距在缩小，国产晶圆厂的进展也在加速。2028年的昇腾下一代产品，性能差距大概率会比910C小很多。

但一套生态从"能用"到"好用"，需要无数开发者在上面踩坑、反馈、优化，这个过程省不了时间。

深圳集群证明了国产芯片可以跑出93.12%的线性度，但MindSpore生态里的模型数量跟PyTorch比，还差着一个数量级。国产框架缺的不是功能，是"大家都在用所以我也用"的惯性。

这个惯性怎么来？靠时间，靠实战，靠越来越多的企业愿意把生产负载跑在国产集群上。深圳这一步，就是往这个方向推了一把。

但推力够不够，要看后续。

深圳目标2026年AI核心产业规模突破5000亿元。这个数字对应的是：算力建设只是基础，应用落地才是增量。一个万卡集群一年能消耗的电量是固定的，但带动的模型开发、应用孵化、数据服务，是算力本身的倍数。

对于电子元器件采购端来说，国产算力集群的进展意味着什么？

第一，芯片交易平台上的国产AI芯片型号会越来越多，交易透明度在提升，价格发现机制在完善。以前国产AI芯片的定价权在原厂手里，现在采购方开始有议价能力了。

第二，芯片原厂和芯片采购方之间的信息差在缩小。以前只知道英伟达多少钱，现在能对比昇腾多少钱，谈判空间大了。这是真实的商业价值。

第三，供应链在重构。液冷、高速光模块、国产存储阵列……这些配套领域的电子元器件需求会被算力建设直接拉动，这是看得见的增量。2026年第一季度，相关元器件的芯片库存结构已经在变化——高性能光模块的芯片采购周期，从原来的8周拉长到了16周，需求在起来。

最后说一句掏心窝的：

单颗芯片落后一代不可怕，可怕的是整个生态链没跑通。深圳14000P集群的真正意义不是算力数字，而是从芯片到集群到应用的国产全栈第一次跑通了。这个"跑通"比任何性能数字都值钱。

接下来的问题是：跑通了，然后呢？

答案在应用侧。谁能用这14000P跑出真实的商业价值，谁就是下一阶段的主角。

参考资料：

1. 深圳14000P智能算力集群点亮（2026年3月26日）
2. 华为昇腾芯片路线图（规划至2028年）
3. 36氪：国产AI芯片跨越天堑，从推理走向训练（2026）
4. 阿里巴巴万卡AI集群部署（韶关，与电信合作）
5. 云天励飞AI芯片战略披露（10年五代NPU）
6. 深圳AI核心产业规模目标：2026年突破5000亿元

闲芯是专业的闲置芯片帮买、帮卖服务平台，专注服务半导体全产业链。

无论您涉及芯片制造、芯片设计、集成电路、半导体工艺，还是AI 芯片、物联网芯片、汽车芯片、5G 芯片、边缘计算芯片等领域；无论您关注行业趋势、产业链发展、技术创新、投资机会，或是有芯片出售、采购需求，都欢迎与我们联系。

📞 联系人：Sandy 电话：18612141362 微信：hu18612141362

📧 商务邮箱：

工厂卖货：Sandy@chipslinking.com工厂买货：Allen@chipslinking.com市场买货：May@chipslinking.com

欢迎扫描二维码，添加我们咨询合作。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

深圳万卡集群点亮的真相:不是算力数字,是一条链跑通了

01 那天晚上集群点亮的时候

02 从0到14000P：怎么跑通的

03 任正非那句话的下半句

04 不是华为一个人的事

05 闲芯判断：国产算力的真正卡点不在芯片

最新文章

热门文章

随机文章

深圳万卡集群点亮的真相:不是算力数字,是一条链跑通了

01 那天晚上集群点亮的时候

02 从0到14000P：怎么跑通的

03 任正非那句话的下半句

04 不是华为一个人的事

05 闲芯判断：国产算力的真正卡点不在芯片

麦穗遇童话·听我讲故事--2026年深圳全民阅读周活动

深圳能源哈萨克斯坦阿斯塔纳垃圾处理发电项目启动建设

最新文章

热门文章

随机文章