一、项目基础信息与时间边界
2026年6月1日,深圳河套学院联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为2012实验室、华为GTS、深智城算力平台,公开落地DeepSeek-V4-Pro全参数后训练工程,硬件载体为千卡规模昇腾910C国产算力集群,项目攻坚周期1个月,系公开记录中首个第三方机构依托全栈国产硬件完成该规格MoE模型全参数训练案例。
DeepSeek-V4-Pro基础参数:总参数1.6万亿,稀疏MoE架构,单轮推理激活参数490亿,原生配置100万Token超长上下文,2026年4月24日正式开源、采用MIT商用协议,此前该型号全参数训练仅可在海外GPU集群完成,国产硬件仅实现轻量化微调与推理部署。
二、硬件层:昇腾910C集群架构与实测运行数据
2.1 单芯片硬件规格
昇腾910C采用N+2国产制程、达芬奇自研架构,单卡FP16理论算力320TFLOPS,HBM内存带宽3.2TB/s,单卡额定功耗250W;集群采用CloudMatrix384超节点组网方案,单超节点集成384颗910C芯片+192颗鲲鹏CPU,依托自研UB高速互联总线实现多卡低时延通信,单超节点BF16总算力300PFLOPS。本次训练投入千卡级集群,由多组384卡超节点横向扩容组成。
2.2 集群实测量化指标
全参数SFT续训练累计稳定运行1500迭代步,无空迭代、无数值溢出报错;单迭代平均耗时27秒,整体模型算力利用率MFU稳定区间30.1%~34.9%;经过算子定制优化后,MoE稀疏路由、混合注意力核心算子运行效率较原生移植版本提升14%,各项指标满足工业级大模型量产训练准入标准。
三、软件层:适配万亿级MoE模型的技术改造路径
3.1 框架与并行方案优化
项目基于昇腾CANN底层驱动、MindSpore训练框架改造,落地DualPipeV双层流水线并行+专家模型分布式切分方案,针对DeepSeek CSA+HCA混合稀疏注意力架构,重构KV缓存分片逻辑,把百万上下文带来的显存占用降低73%,解决MoE架构单专家负载不均衡、跨卡通信阻塞两大行业共性痛点。
3.2 自动化迁移工具落地
依托河套学院与华为共建模型自动调优闭环系统,完成模型层算子编译、硬件层指令映射自动化适配,跳过人工逐行算子改写环节,同类开源大模型向昇腾平台迁移周期压缩62%,本次V4-Pro适配仅投入1个月研发周期,验证自动化适配工具的规模化复用能力。
四、产学研协同落地模式拆解
本次项目采用高校牵头+科研院所算法+企业软硬件+地方算力平台四方协作架构:深圳河套学院负责项目统筹、工程落地与数据验证;哈工大(深圳)承接稀疏算法、并行数学模型优化;华为输出910C硬件底座、CANN底层软件与算子优化技术;深智城提供本地化机房供电、液冷散热配套算力基础设施 。
同步配套三级人才实训机制:行业工程师带队、在校博士生负责调参迭代、本科生参与小模型预实验,在项目落地周期内完成60余名在校人员国产算力实操实训,形成项目落地与人才储备双向落地模式 。
五、行业视角:本次落地对国产算力产业链的指标意义
1. 产品定位层面:打破国产算力只能做推理、轻量化微调的固有边界,完成从“可用推理”向“全参数训练”的产品能力跃迁,证明国产NPU硬件+全栈软件生态可对标海外高端GPU支撑旗舰级开源大模型完整研发链路。
2. 商业化层面:第三方机构独立落地验证,意味着政企、AI初创企业可脱离海外算力采购渠道,基于国产化集群完成万亿参数模型自研,直接降低国内大模型厂商算力供应链依赖风险。
3. 产业迭代层面:本次优化沉淀的MoE算子、分布式并行方案可批量复用至后续国产大模型适配,缩短全行业国产化替代周期。
六、后续可落地延伸方向
1. 批量迁移DeepSeek-V4-Flash(2840亿总参数)同系列模型至910C集群,完善产品矩阵全规格适配;
2. 依托现有集群开展长周期预训练实验,持续提升MFU利用率至40%工业最优线;
3. 输出标准化MoE模型昇腾适配白皮书,面向全国高校、中小AI企业开放落地方法论。