
近日
深圳河套学院
联合多家单位开展技术攻关
依托昇腾910C国产AI算力集群
完成1.6万亿参数大模型
DeepSeek-V4-Pro全参数后训练



此次技术攻关
为全球第三方机构
在国产算力平台上
完成该级别模型训练的相关探索
积累了重要经验
也印证了国产AI芯片
可支撑世界级超大参数模型训练工作

优化建模SFT数据飞轮流程
万亿参数大模型是人工智能领域的主流前沿模型,在逻辑推理、数理计算、代码编写、长文本理解等方面表现突出。这类模型的全参数训练,对硬件算力、集群稳定性、算法适配优化均有严苛要求。
长期以来,全球范围内万亿级大模型训练多采用海外高端算力产品,国内国产算力此前主要用于模型推理、小幅微调,难以完成全参数深度训练,这也是行业发展中普遍面临的技术难题。
万亿级参数的
AI大模型训练难在哪?
如果把训练一个万亿级参数的AI大模型比作解一道超级复杂的数学题,那么每一张计算卡就像一名解题员。他们不仅要分工明确、日夜不停地连轴转,还不能有人偷懒、不能有人出错,更不能有人掉队。
这次训练的DeepSeek-V4-Pro采用的是混合专家模型(MoE)架构,可以把它想象成一个庞大的“专家团”:平时回答问题只激活少数几位专家,看似高效,但后训练时,“专家们”之间的沟通量却是普通模型的几十倍。再加上动态切换的注意力机制,这对芯片算力的调度和显存资源的管理提出了极其苛刻的要求。
简单来说,以前的国产算力更多是让大模型“能用”(即推理部署),就像给模型修了一条单行道,输入一个问题,输出一个答案。而这次的“全参数后训练”,则是要让模型学会自我反思和调整,相当于在单行道的基础上,又增加了复杂的立交桥和多条反馈回路,计算量和通信量瞬间翻了好几倍。
三大硬核突破
让国产算力“跑得稳”
面对如此极限的挑战
科研团队在国产AI算力集群上
实现了三大硬核突破
▼
一是“显存拼图”。万亿级大模型不可能只塞进一张卡,团队设计了精密的分布式承载方案,把庞大的模型参数像拼图一样,精确地分配到千卡集群的每一张卡上,算力调度明明白白。
二是“负载均衡”。为了避免MoE模型中有的“专家”忙得够呛、有的却在“闲逛”,团队专门优化了调度策略,保证了每位“专家”分工合理,跨卡通信不再“堵车”。
三是“有人‘守夜’”。全参数后训练最怕跑着跑着系统突然崩溃。本次训练团队搭建了完整的监控体系,全部实现可视可控,确保了长达1500多步的训练过程中,没有出现一次中断或报错。

项目团队开展技术复盘与学生实战培养
本次探索是国产算力适配超大参数大模型过程中的一次重要进展,有助于提升国内AI产业链自主化水平,降低行业应用成本,为人工智能技术落地应用提供更多支撑。目前,项目已实现模型算力利用率(MFU)超过30%,关键训练算子效率提升14%,各项指标均达到工业级运行标准。
从技术应用角度来看,调用已有模型开展业务推理,与从零完成模型全参数训练分属不同技术环节,二者在技术难度、硬件要求上存在明显区别。本次试验结果表明,国产AI算力已可承担顶级大模型训练任务,相关技术路径具备可行性。
该AI训练平台项目以国产算力真实大模型训练任务为牵引,探索“顶尖人才培养、基础模型研发、国产生态建设”协同推进的新型训练平台机制。深圳河套学院相关负责人表示,本次探索依托真实工程攻关,帮助参训人员吃透大模型训练全链路,为国家人工智能战略和国产算力生态建设培育具备实战能力的高水平青年人才。

项目团队开展技术复盘与学生实战培养
深圳河套学院将万亿级模型训练攻关作为“练兵场”,学生直接嵌入国产算力真实训练场景。截至目前,项目已培养学生42名,形成了由青年教师指导、博士生核心攻坚、工程团队支撑的协同培养机制,持续为行业发展补充人才力量。

未来展望
下一阶段,深圳河套学院将继续联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS(全球技术服务)、计算产品线、2012实验室、深智城等合作伙伴,在现有全参数续训练/SFT链路基础上,重点推进三项任务:
1. 训练效率再突破
持续优化训练框架与关键算子,进一步提升训练效率(MFU),降低万亿模型训练的算力成本。
2. 超长上下文训练
支撑512K至1M超长上下文训练,提升复杂专业任务中的长文档理解与长链路推理能力。
3. 强化学习后训练闭环
突破DeepSeek-V4-Pro强化学习后训练技术,围绕数学建模优化、代码Agent、长上下文推理等任务,构建rollout生成 → 工具执行 → reward/verifier → 策略更新 → 评测反馈的完整Agentic RL链路。
同时,项目将坚定推进技术开源与人才培养沉淀:
分阶段开放训练配置、评测脚本、合成数据、技术报告及相关模型与框架能力;
将真实训练任务、数据构造方法、故障排查案例和评测流程转化为课程案例与实训任务;
持续完善“国产算力支撑、真实任务牵引、学生团队实战、工程能力沉淀”的培养路径。
在此基础上,项目还将依托这一训练场,开展新一代通用人工智能的基础理论、新范式和新架构的研究——包括符号、连接与行为主义有机融合,从单一智能体到群体智能再到人机融合的建模探索。

项目团队开展技术复盘与学生实战培养
DeepSeek-V4-Pro在国产算力上的全参数后训练,不是一次孤立的工程突破。
它验证了一条道路:国产开源旗舰模型+国产AI算力+高水平训练团队+国产厂商技术支持——这个四角闭环,是可持续的、可复制的、可信任的。
它发出了一声宣告:国产AI基础设施,从现在起,不再只是“能推理”,而是真正“能训练、能训稳、能训优”。
更重要的是,它点燃了一个希望:在下一代通用人工智能的征途上,中国的高校、科研机构和年轻学子,可以站在自己的算力土壤上,开展人工智能的研究,亲手训练属于自己的万亿模型。
这不是终点,而是发令枪。

编辑 | 谢欣
校对 | 余悦、蔡诗妍、魏实金
审校 | 兰永久
监制 | 刘伟
信息来源 | 新华社、深视新闻、深圳河套学院
*转载请注明来源“幸福福田”,如有侵权请及时联系我们









