华为开源 openPangu 2.0 Flash：92B 参数、6B 激活，全栈训练代码一并公开

2026-06-30 16:51

6月30日消息，华为今日正式开源 openPangu-2.0-Flash 模型权重、推理代码及训推算子。这是一个总参数 92B、每 token 激活参数仅 6B 的大规模混合专家模型，支持 512K 上下文，全程在昇腾 NPU 上完成训练。华为计划 7 月再开源 505B/18B 的 Pro 版权重，并在下半年陆续公开预训练代码、后训练代码等全栈组件，使其成为少数完整开放训练流程的超大规模 MoE 模型之一。

这条消息值得关注的原因有两个层面：一是模型本身以极端稀疏激活（15:1 总参/激活比）换取部署效率，让 92B 模型在推理时仅需支撑 6B 参数的计算量；二是开源范围罕见地覆盖了训练全链路，直接释放了在昇腾算力上复现和微调的完整路径。但当前公开的基准测试数据有限，Flash 与同规模竞品（如 Qwen 3.5 122B-A10B）的系统性对比尚未出现。

华为开源 openPangu 2.0 Flash：92B 参数、6B 激活，全栈训练代码一并公开

92B 总参数只激活 6B 的代价与收益

openPangu 2.0 Flash 采用 MoE 架构，稀疏比约为 15:1。与之对比，DeepSeek-V3 的稀疏比约为 18:1（671B/37B），Qwen 3.5 的 122B 版本激活 10B。Flash 的设计意图是在单张昇腾 910B（32GB 显存以上）上实现推理部署，定位轻量级本地和边缘场景。

极端稀疏的收益是显存和计算成本的大幅压缩。华为官方宣称在昇腾上单卡吞吐率达到主流开源模型的 2 倍。代价则是每次推理只能调用 92B 参数中的一小部分专家知识，模型在复杂推理任务上的天花板理论上低于激活参数更多的模型。从官方公布的基准看，Flash 在 Thinking 模式下 AIME 2026 取得 93.3（Avg@16），SWE-bench Verified 63.1（Avg@3），LiveCodeBench V6 85.1（Avg@3）。这些分数在 6B 激活量级中属于强势表现，但缺乏与同条件下其他模型的直接对比，难以单独判断竞争力。

全栈开源的真正意义是昇腾生态建设

华为此次开源的范围超越了通常意义上的"发布权重和推理代码"。7 大组件最终将包含模型结构、权重、技术报告、推理代码、预训练代码、后训练代码和训练算子。这在超大规模 MoE 模型中极为少见——DeepSeek-V3 开源了权重、推理代码和技术报告，但训练代码仅部分公开；Llama 系列更是从未开放完整训练流程。

但这种全栈开源的首要受益者并非通用开发者社区，而是昇腾算力的既有和潜在用户。openPangu 2.0 从架构到算子都是昇腾原生设计，需要 CANN 软件栈支持，无法直接在 NVIDIA GPU 上运行。华为明确将 openPangu 定位为"用好昇腾的实践参考"。换言之，全栈开源的本质是为昇腾生态提供一个经过验证的完整训练样板——告诉行业：在没有 NVIDIA 的情况下，可以这样训出一个有竞争力的大模型。

余承东在发布会上坦承，华为自身的算力大量支持了国内其他企业需求，自己留的数量"非常有限"。这解释了为何 Pro 版总参数定在 505B 而非更大——算力瓶颈直接约束了模型规模的上限。

注意力架构的实际取舍

Flash 采用 DSA+SWA 独立分层混合注意力，层配比 1:2。SWA（Sliding Window Attention）层负责局部窗口建模，DSA（Dilated Sparse Attention）层负责稀疏全局聚合。这种设计的目的是在 512K 长上下文下避免标准注意力的二次方复杂度，但以牺牲部分全局信息交互密度为代价。此外，模型采用 mHC（4 支流残差连接）替代传统单路残差，以及 3 头 MTP（Multi-Token Prediction）自投机模块用于加速推理生成。

这些架构选择共同指向一个工程目标：在昇腾硬件的内存带宽和计算单元特性下，最大化推理效率。它们不是通用的"最优架构"，而是面向特定硬件约束的联合优化结果。

Pro 版 7 月上线前仍有未知数

505B/18B 的 Pro 版预计 7 月开源权重和推理代码，但训练代码要等到下半年。目前 Pro 版没有公开基准数据。从参数量看，Pro 的 18B 激活量与 Qwen 3.5 的 397B-A17B 处于同一区间，社区已开始将两者视为竞品。但在 Pro 实际权重公开并经过独立评测之前，其真实能力只能从 Flash 版的表现做有限推断。

另一个待观察的变量是许可协议。Flash 版采用 OPENPANGU MODEL LICENSE AGREEMENT VERSION 2.0，目前协议全文尚未被广泛审阅，其商业使用条款和限制细节将影响模型的实际可用范围。华为年底前还计划推出面向麒麟芯片的 30B 端侧模型，届时 openPangu 系列将覆盖从数据中心到手机端的完整算力梯度。

项目地址：https://ai.gitcode.com/ascend-tribe/openPangu-2.0-Flash

好文章，需要你的鼓励