科技

华为昇腾910C完成1.6万亿DeepSeek全参数后训练 国产算力跨过最难一关

6月5日,深圳发布官方账号正式确认了一个让整个行业振奋的消息:深圳河套学院AI训练平台项目团队,联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队,依托昇腾910C国产AI算力集群,完成了1.6万亿参数大模型DeepSeek-V4-Pro的全参数后训练。这标志着在美国制裁持续收紧的背景下,中国半导体行业正从支持基础AI推理迈向更复杂的模型训练阶段。

什么是全参数后训练

全参数后训练是指在训练过程中更新模型的全部参数,而不是只更新其中一小部分。对于DeepSeek-V4-Pro来说,就是要同时调整它的1.6万亿个参数。与之相对的是「部分参数微调」,只更新模型的最后几层或少量适配器参数。全参数训练能够最大限度地提升模型性能,但也对算力、存储、通信和系统稳定性提出了近乎苛刻的要求。此前这一级别的训练几乎只有使用英伟达顶级芯片的团队才能完成。国产芯片能够完成这一级别的训练,在半年前还被认为是不可能的事情。

三大工程突破

这次成功靠的是三个扎扎实实的工程突破。第一是「显存拼图」:1.6万亿个参数的数据量极其庞大,不可能塞进任何一张单独的计算卡。团队设计了一套极其精密的分布式承载方案,把整个模型像拼图一样拆成一小块一小块,精确分配到每一张芯片上,哪块卡负责哪部分参数、什么时候需要和其他卡交换数据都算得丝毫不差。第二是「负载均衡」:混合专家模型最头疼的问题就是忙闲不均,有的专家任务排成长队,有的专家却闲着没事。团队专门针对MoE架构优化了调度算法,动态给每个专家分配任务,彻底解决了跨卡通信拥堵问题。第三是「全程不掉线」:训练一共跑了1500多步,全程没有出现一次中断或报错,背后是一整套完整的全链路监控和容错体系,是无数个日夜调试出来的结果。

关键数据与行业意义

官方公布的数据显示,模型算力利用率超过30%,关键训练算子效率提升14%。可能有人觉得30%不高,但在大模型训练领域这已经是非常不错的工业级水平——就算用最顶级的海外芯片,很多团队的实际利用率也就在40%左右。深圳河套学院将这一项目当成真实的教学场景,学生直接进入训练环境参与全流程,已培养了42名学生,形成了青年教师指导、博士生核心攻坚、工程团队支撑的完整梯队。这些人在课本上学大模型训练,而是真刀真枪地跑过万亿级模型的全流程,知道哪里会出问题、知道怎么解决问题,这才是国产AI产业最宝贵的财富。此次实践为全球第三方机构在国产算力平台上完成该级别模型训练积累了重要经验,也印证了国产AI芯片可支撑世界级超大参数模型训练工作。