当前位置：首页>深圳>深圳河套学院+昇腾算力:国产910C集群完成1.6万亿参数

深圳河套学院+昇腾算力:国产910C集群完成1.6万亿参数

2026-06-13 21:00:10

一、项目基础信息与时间边界

2026年6月1日，深圳河套学院联合哈尔滨工业大学（深圳）、深圳市大数据研究院、华为2012实验室、华为GTS、深智城算力平台，公开落地DeepSeek-V4-Pro全参数后训练工程，硬件载体为千卡规模昇腾910C国产算力集群，项目攻坚周期1个月，系公开记录中首个第三方机构依托全栈国产硬件完成该规格MoE模型全参数训练案例。

DeepSeek-V4-Pro基础参数：总参数1.6万亿，稀疏MoE架构，单轮推理激活参数490亿，原生配置100万Token超长上下文，2026年4月24日正式开源、采用MIT商用协议，此前该型号全参数训练仅可在海外GPU集群完成，国产硬件仅实现轻量化微调与推理部署。

二、硬件层：昇腾910C集群架构与实测运行数据

2.1 单芯片硬件规格

昇腾910C采用N+2国产制程、达芬奇自研架构，单卡FP16理论算力320TFLOPS，HBM内存带宽3.2TB/s，单卡额定功耗250W；集群采用CloudMatrix384超节点组网方案，单超节点集成384颗910C芯片+192颗鲲鹏CPU，依托自研UB高速互联总线实现多卡低时延通信，单超节点BF16总算力300PFLOPS。本次训练投入千卡级集群，由多组384卡超节点横向扩容组成。

2.2 集群实测量化指标

全参数SFT续训练累计稳定运行1500迭代步，无空迭代、无数值溢出报错；单迭代平均耗时27秒，整体模型算力利用率MFU稳定区间30.1%~34.9%；经过算子定制优化后，MoE稀疏路由、混合注意力核心算子运行效率较原生移植版本提升14%，各项指标满足工业级大模型量产训练准入标准。

三、软件层：适配万亿级MoE模型的技术改造路径

3.1 框架与并行方案优化

项目基于昇腾CANN底层驱动、MindSpore训练框架改造，落地DualPipeV双层流水线并行+专家模型分布式切分方案，针对DeepSeek CSA+HCA混合稀疏注意力架构，重构KV缓存分片逻辑，把百万上下文带来的显存占用降低73%，解决MoE架构单专家负载不均衡、跨卡通信阻塞两大行业共性痛点。

3.2 自动化迁移工具落地

依托河套学院与华为共建模型自动调优闭环系统，完成模型层算子编译、硬件层指令映射自动化适配，跳过人工逐行算子改写环节，同类开源大模型向昇腾平台迁移周期压缩62%，本次V4-Pro适配仅投入1个月研发周期，验证自动化适配工具的规模化复用能力。

四、产学研协同落地模式拆解

本次项目采用高校牵头+科研院所算法+企业软硬件+地方算力平台四方协作架构：深圳河套学院负责项目统筹、工程落地与数据验证；哈工大（深圳）承接稀疏算法、并行数学模型优化；华为输出910C硬件底座、CANN底层软件与算子优化技术；深智城提供本地化机房供电、液冷散热配套算力基础设施。

同步配套三级人才实训机制：行业工程师带队、在校博士生负责调参迭代、本科生参与小模型预实验，在项目落地周期内完成60余名在校人员国产算力实操实训，形成项目落地与人才储备双向落地模式。

五、行业视角：本次落地对国产算力产业链的指标意义

1. 产品定位层面：打破国产算力只能做推理、轻量化微调的固有边界，完成从“可用推理”向“全参数训练”的产品能力跃迁，证明国产NPU硬件+全栈软件生态可对标海外高端GPU支撑旗舰级开源大模型完整研发链路。

2. 商业化层面：第三方机构独立落地验证，意味着政企、AI初创企业可脱离海外算力采购渠道，基于国产化集群完成万亿参数模型自研，直接降低国内大模型厂商算力供应链依赖风险。

3. 产业迭代层面：本次优化沉淀的MoE算子、分布式并行方案可批量复用至后续国产大模型适配，缩短全行业国产化替代周期。

六、后续可落地延伸方向

1. 批量迁移DeepSeek-V4-Flash（2840亿总参数）同系列模型至910C集群，完善产品矩阵全规格适配；

2. 依托现有集群开展长周期预训练实验，持续提升MFU利用率至40%工业最优线；

3. 输出标准化MoE模型昇腾适配白皮书，面向全国高校、中小AI企业开放落地方法论。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

深圳河套学院+昇腾算力:国产910C集群完成1.6万亿参数

最新文章

热门文章

随机文章

深圳河套学院+昇腾算力:国产910C集群完成1.6万亿参数

深圳外国语学校2026届高三数学九模试卷及答案(2026.6)

深圳周边游玩,惠州小桂湾赶海露营钓鱼环行

最新文章

热门文章

随机文章