DeepSeek V4-Pro 技术报告解读：1.6T MoE，1M 上下文 KV 缓存降至 V3.2 的 10%

2026-04-24 14:59

846

4月24日，DeepSeek 同步发布 V4 系列预览版与技术报告《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》，包含 V4-Pro（1.6T 总参 / 49B 激活）和 V4-Flash（284B / 13B）两个 MoE 变体，均标配 1M token 上下文——核心升级是 CSA + HCA 混合注意力加 mHC 残差连接，使 V4-Pro 在 1M 上下文下的单 token 推理 FLOPs 降至 V3.2 的 27%，KV 缓存降至 V3.2 的 10%；V4-Flash 更激进，KV 缓存压到 V3.2 的 7%。

DeepSeek V4-Pro 技术报告解读：1.6T MoE，1M 上下文 KV 缓存降至 V3.2 的 10%

一、CSA + HCA 混合注意力：1M 上下文 KV 缓存砍到 10% 的核心

V4 最硬的升级不在参数量，而在注意力机制。技术报告把注意力层拆成两条压缩路径交替叠放：

CSA（Compressed Sparse Attention） 负责精细检索：每 m 个 token 的 KV 通过带位置偏置的 softmax 加权压缩成 1 个条目（V4-Pro/Flash 均取 m=4），再走 DeepSeek Sparse Attention，用 lightning indexer 对压缩后的条目打分、top-k 选择。V4-Pro 的 top-k 为 1024，V4-Flash 为 512，indexer 的 QK 路径全程用 FP4 精度跑。

HCA（Heavily Compressed Attention） 负责远程建模：压缩率直接拉到 m'=128（即 128 个 token 压成 1 个），之后做稠密注意力，不走 top-k。相比 CSA，HCA 不做重叠压缩、也不做稀疏选择，但压缩幅度更激进。

两者在 Transformer 块里交替使用（V4-Pro 前两层全用 HCA，V4-Flash 前两层用纯滑动窗口）。每个 CSA/HCA 层额外挂一条 128 token 的滑动窗口注意力分支，保留局部细粒度依赖——这是为了弥补压缩丢失的同块内信息。KV 存储本身也做了精度切分：RoPE 维度用 BF16，其余维度用 FP8，KV 缓存体积直接砍掉近一半。

拿 BF16 GQA8（头维 128）做基线对比，V4 系列在 1M 上下文下的 KV 缓存只有基线的约 2%。相比已经很精打细算的 V3.2，V4-Pro 单 token 推理 FLOPs 是 27%、KV 缓存 10%；V4-Flash 是 10% 和 7%。换个说法，官方图表给出的倍数是 V4-Pro 对 V3.2 的 3.7× 更低 FLOPs、9.5× 更小 KV 缓存，V4-Flash 是 9.8× 和 13.7×。

工程侧还做了 on-disk KV 缓存：CSA/HCA 压缩条目直接落盘复用共享前缀；SWA 因为每层都有、体量约为压缩 KV 的 8 倍，报告给出三档可选策略（Full SWA / Periodic Checkpoint / Zero SWA），按部署场景权衡存储和重算。

二、mHC、Muon 与 FP4 QAT：1.6T MoE 能训到收敛的三件套

1.6T 参数 MoE 训到收敛的工程难度，DeepSeek 在报告里罕见地直接承认了——loss spike 屡次出现，简单回滚不能根治。三项改造是这次能稳住的关键。

mHC（Manifold-Constrained Hyper-Connections） 用来加强传统残差连接。普通 Hyper-Connections 把残差流宽度扩成 n_hc × d，但深层堆叠时数值不稳。mHC 的核心做法是把残差映射矩阵约束到双随机矩阵流形（Birkhoff polytope）上，用 Sinkhorn-Knopp 算法迭代 20 次投影，保证映射矩阵谱范数 ≤ 1——意思是残差变换非膨胀，前向和反向传播都不会放大信号。V4 系列把 n_hc 设为 4，报告披露 mHC 让流水线 wall-time 只多出 6.7%。

Muon 优化器 用于除 embedding、prediction head、RMSNorm 之外的绝大多数模块，AdamW 只留给这些边缘组件。Muon 关键是混合 Newton-Schulz 迭代做矩阵正交化：前 8 步用 (3.4445, -4.7750, 2.0315) 快速收敛，后 2 步切到 (2, -1.5, 0.5) 稳定奇异值精确落在 1。配合 ZeRO 分桶策略，DeepSeek 还把 MoE 梯度同步降到 BF16 精度，通信量减半。

FP4 QAT 的应用范围被卡得很精确：只有 MoE 专家权重和 CSA 索引器的 QK 路径走 FP4（MXFP4 格式），其余参数用 FP8。报告里的细节很工程派——FP4 到 FP8 的反量化"无损"，因为 FP8 (E4M3) 比 FP4 (E2M1) 多 2 个指数位，只要 FP4 子块的 scale factor 比例不超过阈值，尺度信息能完全塞进 FP8 动态范围。推理和 RL rollout 阶段直接用 FP4 权重，训练时模拟 FP4→FP8 反量化，等于零改动复用原有 FP8 训练框架。

训练稳定性上，报告还点名两个"经验管用、理论没完全搞清楚"的 trick：Anticipatory Routing（当前 step 的路由索引用 t - Δt 步的参数计算，打破 backbone 和 routing 的同步更新，触发 loss spike 时自动切换）和 SwiGLU Clamping（线性分量 clamp 到 [-10, 10]，gate 上界 10）——作者在局限章节里明确说了这两个技术的底层机制尚未搞清，欢迎社区探索。

另一个容易被略过的细节：V4-Flash 用 32T tokens 预训练，V4-Pro 用 33T tokens。训练序列长度从 4K 逐步扩到 16K、64K、1M；前 1T token 用稠密注意力预热，再切到稀疏注意力跑剩余大部分训练。

三、Benchmark 逐项拆解：编程登顶、开源知识第一、长上下文仍不如 Opus 4.6

Benchmark 数据以 V4-Pro-Max（最高推理强度）对 Claude Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1-Pro High、Kimi K2.6 Thinking、GLM-5.1 Thinking 的方式给出。

编程是 V4-Pro 最拿得出手的一栏。LiveCodeBench 93.5 分居首，超过 Gemini 3.1-Pro 的 91.7 和 K2.6 的 89.6；Codeforces 内部评测 3206 分排第一，压过 GPT-5.4 的 3168 和 Gemini 的 3052，报告提到这让 V4-Pro-Max 在 Codeforces 人类榜单上排第 23。Apex Shortlist 90.2 同样居首。报告原话："this is the first time an open model has matched a closed model on this task."

数学同样硬。HMMT 2026 Feb 95.2、IMOAnswerBench 89.8、Apex 38.3（这一项被 Gemini 的 60.9 碾压）。形式化数学上，V4-Flash-Max 在 Putnam-200 Pass@8 设置拿到 81.00，比 Seed-2.0-Pro 的 35.5 和 Gemini-3-Pro 的 26.5 高出一大截；Putnam-2025 hybrid 设置 120/120 满分。

知识类呈现"开源第一、闭源次席"的分裂格局。SimpleQA-Verified 57.9 分比所有开源模型高 20+ 个百分点（K2.6 36.9、GLM 38.1），但仍输给 Gemini 3.1-Pro 的 75.6。Chinese-SimpleQA 84.4 同样是开源第一。MMLU-Pro 87.5 打平 GPT-5.4，落后 Gemini 的 91.0；HLE 37.7 则落后 Gemini（44.4）、Opus（40.0）、GPT-5.4（39.8）。报告把这条差距明说为"距前沿闭源约 3 到 6 个月"。

Agent 类是 V4-Pro 最模糊的一栏。SWE Verified 80.6 与 Gemini 并列、距 Opus 80.8 一步之遥；但 SWE Pro 只有 55.4，反被开源的 K2.6（58.6）和 GLM（58.4）甩开。Terminal-Bench 2.0 拿 67.9，落后 GPT-5.4 的 75.1；BrowseComp 83.4 略低于 Opus 83.7 和 Gemini 85.9；HLE w/ tools 48.2 垫底。唯一亮眼是 MCPAtlas Public 73.6 和 Toolathlon 51.8 两项 MCP/多工具评测小幅领先。GDPval-AA Elo 1554 超过 Gemini 和 K2.6，但仍落后 GPT-5.4（1674）和 Opus（1619）。

长上下文是个典型的"效率赢、质量输"结论。V4-Pro 在 MRCR 1M 拿 83.5，超过 Gemini 3.1-Pro 的 76.3，但被 Claude Opus 4.6 的 92.9 甩开近 10 个百分点；CorpusQA 1M 62.0 同样超 Gemini（53.8）、输 Opus（71.7）。报告给出的 MRCR 曲线显示，V4-Pro 在 128K 内稳定 0.90+，256K 掉到 0.82，1M 掉到 0.59——Opus 在 1M 仍能保持高得多的 MMR。

内部 R&D 编码评测则是另一个独立数据点：从 50+ 内部工程师收集 200 个真实任务、筛选 30 个做评测，V4-Pro-Max 通过率 67%，超过 Sonnet 4.5（47%）、不如 Opus 4.5（70%）、更不如 Opus 4.6 Thinking（80%）。85 位 DeepSeek 研发的内部调研里，52% 的人说 V4-Pro 可以作为默认主编码模型，39% 倾向是，不到 9% 说否。

四、后训练、真实任务与局限：OPD 替代 mixed RL，中文写作压 Gemini，但硬 Agent 仍输 Opus

后训练路线这次做了结构性替换——V3.2 的 mixed RL 阶段被 On-Policy Distillation（OPD）整个替换。先按领域训专家（SFT + GRPO RL，domain-specific reward），再用 10+ 个 teacher 模型做多教师 OPD，学生在自己采样的轨迹上最小化反向 KL。报告特别提到他们用 full-vocabulary logit 蒸馏而非 token-level KL 近似，梯度估计更稳但工程复杂度高——teacher 权重统一 offload 到 3FS 分布式存储，按需加载，只缓存最后一层 hidden state 现场重算 logits。

推理模式做成三档（Non-think / Think High / Think Max），架构上用标签区分，Think Max 还会在 system prompt 前加一段"最大化推理努力、严格压力测试、彻底分解问题"的注入指令。上下文窗口分别设 8K / 128K / 384K。工具调用 schema 换成了 <|DSML|> 前缀的 XML 格式，理由是 XML 比 JSON 更能避免转义错误。Interleaved Thinking 在工具调用场景下保留跨用户轮次的完整推理历史，普通对话则维持旧策略（新用户消息到来时丢弃 thinking）。

Agent 基础设施方面，DeepSeek 自研了 DSec（DeepSeek Elastic Compute）沙箱平台，用 Rust 写的三组件（Apiserver / Edge / Watcher）跑在 3FS 上，单集群并发数十万沙箱，统一暴露 Function Call / Container（EROFS 按需加载）/ microVM（Firecracker）/ fullVM（QEMU）四种执行底座。

真实任务评测分成几块：

中文功能写作：V4-Pro vs Gemini 3.1-Pro 胜率 62.65% vs 34.10%，报告原因是 Gemini 会用自己的风格偏好覆盖用户要求

中文创意写作：指令遵循胜率 60.03%、写作质量胜率 77.48%

复杂指令 + 多轮写作：反过来——Claude Opus 4.5 胜 52.0%，V4-Pro 胜 45.9%

白领任务（30 个高级中文专业任务，13 个行业）：V4-Pro-Max vs Opus 4.6-Max 综合胜率 53% / 37% / 10%，分项得分 86.52 vs 84.06；V4 在"任务完成"（98.32 vs 96.68）和"内容质量"（83.32 vs 78.00）占优，但"指令遵循"（87.76 vs 88.88）和"格式美学"（76.68 vs 72.68）有结构性短板

Agentic Search：平均 16.2 次工具调用、1.3 万输入 token，比 RAG 胜率 61.7%

局限部分，作者在结论章节自己点名：

架构"较为复杂"，保留了很多未完全精简的组件，下一版会蒸馏出最本质设计

Anticipatory Routing 和 SwiGLU Clamping 的底层机制尚不清楚

长上下文检索绝对质量仍不及 Opus 4.6

Agentic 高难度任务仍落后前沿闭源

V4-Flash 在知识型任务上落后 V4-Pro 是参数规模决定的结构性差距

未来方向包括多模态、更稀疏的 embedding、低延迟架构

对运营方和开发者的实操含义比较明确：这是目前开源阵营里知识能力最强的模型，且在编程竞赛和中文写作上已经打入前沿闭源的第一梯队；但如果核心诉求是 1M 超长文档精准检索，Opus 4.6 仍然是更稳的选择；如果是硬 Agent 工作流（SWE Pro、Terminal Bench 高端场景），K2.6 / Opus 系列仍有明显优势。V4-Flash 适合成本敏感的批处理，Pro 适合复杂任务。DeepSeek 自己给出的定位已经很克制——"距前沿闭源 3-6 个月"，这个距离可能就是下一版 V4 正式版要弥补的空间。

技术报告原文：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

模型开源地址：https://huggingface.co/collections/deepseek-ai/deepseek-v4

好文章，需要你的鼓励