6月30日消息,华为今日正式开源 openPangu-2.0-Flash 模型权重、推理代码及训推算子。这是一个总参数 92B、每 token 激活参数仅 6B 的大规模混合专家模型,支持 512K 上下文,全程在昇腾 NPU 上完成训练。华为计划 7 月再开源 505B/18B 的 Pro 版权重,并在下半年陆续公开预训练代码、后训练代码等全栈组件,使其成为少数完整开放训练流程的超大规模 MoE 模型之一。
这条消息值得关注的原因有两个层面:一是模型本身以极端稀疏激活(15:1 总参/激活比)换取部署效率,让 92B 模型在推理时仅需支撑 6B 参数的计算量;二是开源范围罕见地覆盖了训练全链路,直接释放了在昇腾算力上复现和微调的完整路径。但当前公开的基准测试数据有限,Flash 与同规模竞品(如 Qwen 3.5 122B-A10B)的系统性对比尚未出现。
92B 总参数只激活 6B 的代价与收益
openPangu 2.0 Flash 采用 MoE 架构,稀疏比约为 15:1。与之对比,DeepSeek-V3 的稀疏比约为 18:1(671B/37B),Qwen 3.5 的 122B 版本激活 10B。Flash 的设计意图是在单张昇腾 910B(32GB 显存以上)上实现推理部署,定位轻量级本地和边缘场景。
极端稀疏的收益是显存和计算成本的大幅压缩。华为官方宣称在昇腾上单卡吞吐率达到主流开源模型的 2 倍。代价则是每次推理只能调用 92B 参数中的一小部分专家知识,模型在复杂推理任务上的天花板理论上低于激活参数更多的模型。从官方公布的基准看,Flash 在 Thinking 模式下 AIME 2026 取得 93.3(Avg@16),SWE-bench Verified 63.1(Avg@3),LiveCodeBench V6 85.1(Avg@3)。这些分数在 6B 激活量级中属于强势表现,但缺乏与同条件下其他模型的直接对比,难以单独判断竞争力。
全栈开源的真正意义是昇腾生态建设
华为此次开源的范围超越了通常意义上的"发布权重和推理代码"。7 大组件最终将包含模型结构、权重、技术报告、推理代码、预训练代码、后训练代码和训练算子。这在超大规模 MoE 模型中极为少见——DeepSeek-V3 开源了权重、推理代码和技术报告,但训练代码仅部分公开;Llama 系列更是从未开放完整训练流程。
但这种全栈开源的首要受益者并非通用开发者社区,而是昇腾算力的既有和潜在用户。openPangu 2.0 从架构到算子都是昇腾原生设计,需要 CANN 软件栈支持,无法直接在 NVIDIA GPU 上运行。华为明确将 openPangu 定位为"用好昇腾的实践参考"。换言之,全栈开源的本质是为昇腾生态提供一个经过验证的完整训练样板——告诉行业:在没有 NVIDIA 的情况下,可以这样训出一个有竞争力的大模型。
余承东在发布会上坦承,华为自身的算力大量支持了国内其他企业需求,自己留的数量"非常有限"。这解释了为何 Pro 版总参数定在 505B 而非更大——算力瓶颈直接约束了模型规模的上限。
注意力架构的实际取舍
Flash 采用 DSA+SWA 独立分层混合注意力,层配比 1:2。SWA(Sliding Window Attention)层负责局部窗口建模,DSA(Dilated Sparse Attention)层负责稀疏全局聚合。这种设计的目的是在 512K 长上下文下避免标准注意力的二次方复杂度,但以牺牲部分全局信息交互密度为代价。此外,模型采用 mHC(4 支流残差连接)替代传统单路残差,以及 3 头 MTP(Multi-Token Prediction)自投机模块用于加速推理生成。
这些架构选择共同指向一个工程目标:在昇腾硬件的内存带宽和计算单元特性下,最大化推理效率。它们不是通用的"最优架构",而是面向特定硬件约束的联合优化结果。
Pro 版 7 月上线前仍有未知数
505B/18B 的 Pro 版预计 7 月开源权重和推理代码,但训练代码要等到下半年。目前 Pro 版没有公开基准数据。从参数量看,Pro 的 18B 激活量与 Qwen 3.5 的 397B-A17B 处于同一区间,社区已开始将两者视为竞品。但在 Pro 实际权重公开并经过独立评测之前,其真实能力只能从 Flash 版的表现做有限推断。
另一个待观察的变量是许可协议。Flash 版采用 OPENPANGU MODEL LICENSE AGREEMENT VERSION 2.0,目前协议全文尚未被广泛审阅,其商业使用条款和限制细节将影响模型的实际可用范围。华为年底前还计划推出面向麒麟芯片的 30B 端侧模型,届时 openPangu 系列将覆盖从数据中心到手机端的完整算力梯度。