4月24日,DeepSeek 同步发布 V4 系列预览版与技术报告《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》,包含 V4-Pro(1.6T 总参 / 49B 激活)和 V4-Flash(284B / 13B)两个 MoE 变体,均标配 1M token 上下文——核心升级是 CSA + HCA 混合注意力加 mHC 残差连接,使 V4-Pro 在 1M 上下文下的单 token 推理 FLOPs 降至 V3.2 的 27%,KV 缓存降至 V3.2 的 10%;V4-Flash 更激进,KV 缓存压到 V3.2 的 7%。
一、CSA + HCA 混合注意力:1M 上下文 KV 缓存砍到 10% 的核心
V4 最硬的升级不在参数量,而在注意力机制。技术报告把注意力层拆成两条压缩路径交替叠放:
CSA(Compressed Sparse Attention) 负责精细检索:每 m 个 token 的 KV 通过带位置偏置的 softmax 加权压缩成 1 个条目(V4-Pro/Flash 均取 m=4),再走 DeepSeek Sparse Attention,用 lightning indexer 对压缩后的条目打分、top-k 选择。V4-Pro 的 top-k 为 1024,V4-Flash 为 512,indexer 的 QK 路径全程用 FP4 精度跑。
HCA(Heavily Compressed Attention) 负责远程建模:压缩率直接拉到 m'=128(即 128 个 token 压成 1 个),之后做稠密注意力,不走 top-k。相比 CSA,HCA 不做重叠压缩、也不做稀疏选择,但压缩幅度更激进。
两者在 Transformer 块里交替使用(V4-Pro 前两层全用 HCA,V4-Flash 前两层用纯滑动窗口)。每个 CSA/HCA 层额外挂一条 128 token 的滑动窗口注意力分支,保留局部细粒度依赖——这是为了弥补压缩丢失的同块内信息。KV 存储本身也做了精度切分:RoPE 维度用 BF16,其余维度用 FP8,KV 缓存体积直接砍掉近一半。
拿 BF16 GQA8(头维 128)做基线对比,V4 系列在 1M 上下文下的 KV 缓存只有基线的约 2%。相比已经很精打细算的 V3.2,V4-Pro 单 token 推理 FLOPs 是 27%、KV 缓存 10%;V4-Flash 是 10% 和 7%。换个说法,官方图表给出的倍数是 V4-Pro 对 V3.2 的 3.7× 更低 FLOPs、9.5× 更小 KV 缓存,V4-Flash 是 9.8× 和 13.7×。
工程侧还做了 on-disk KV 缓存:CSA/HCA 压缩条目直接落盘复用共享前缀;SWA 因为每层都有、体量约为压缩 KV 的 8 倍,报告给出三档可选策略(Full SWA / Periodic Checkpoint / Zero SWA),按部署场景权衡存储和重算。
二、mHC、Muon 与 FP4 QAT:1.6T MoE 能训到收敛的三件套
1.6T 参数 MoE 训到收敛的工程难度,DeepSeek 在报告里罕见地直接承认了——loss spike 屡次出现,简单回滚不能根治。三项改造是这次能稳住的关键。
mHC(Manifold-Constrained Hyper-Connections) 用来加强传统残差连接。普通 Hyper-Connections 把残差流宽度扩成 n_hc × d,但深层堆叠时数值不稳。mHC 的核心做法是把残差映射矩阵约束到双随机矩阵流形(Birkhoff polytope)上,用 Sinkhorn-Knopp 算法迭代 20 次投影,保证映射矩阵谱范数 ≤ 1——意思是残差变换非膨胀,前向和反向传播都不会放大信号。V4 系列把 n_hc 设为 4,报告披露 mHC 让流水线 wall-time 只多出 6.7%。
Muon 优化器 用于除 embedding、prediction head、RMSNorm 之外的绝大多数模块,AdamW 只留给这些边缘组件。Muon 关键是混合 Newton-Schulz 迭代做矩阵正交化:前 8 步用 (3.4445, -4.7750, 2.0315) 快速收敛,后 2 步切到 (2, -1.5, 0.5) 稳定奇异值精确落在 1。配合 ZeRO 分桶策略,DeepSeek 还把 MoE 梯度同步降到 BF16 精度,通信量减半。
FP4 QAT 的应用范围被卡得很精确:只有 MoE 专家权重和 CSA 索引器的 QK 路径走 FP4(MXFP4 格式),其余参数用 FP8。报告里的细节很工程派——FP4 到 FP8 的反量化"无损",因为 FP8 (E4M3) 比 FP4 (E2M1) 多 2 个指数位,只要 FP4 子块的 scale factor 比例不超过阈值,尺度信息能完全塞进 FP8 动态范围。推理和 RL rollout 阶段直接用 FP4 权重,训练时模拟 FP4→FP8 反量化,等于零改动复用原有 FP8 训练框架。
训练稳定性上,报告还点名两个"经验管用、理论没完全搞清楚"的 trick:Anticipatory Routing(当前 step 的路由索引用 t - Δt 步的参数计算,打破 backbone 和 routing 的同步更新,触发 loss spike 时自动切换)和 SwiGLU Clamping(线性分量 clamp 到 [-10, 10],gate 上界 10)——作者在局限章节里明确说了这两个技术的底层机制尚未搞清,欢迎社区探索。
另一个容易被略过的细节:V4-Flash 用 32T tokens 预训练,V4-Pro 用 33T tokens。训练序列长度从 4K 逐步扩到 16K、64K、1M;前 1T token 用稠密注意力预热,再切到稀疏注意力跑剩余大部分训练。
三、Benchmark 逐项拆解:编程登顶、开源知识第一、长上下文仍不如 Opus 4.6
Benchmark 数据以 V4-Pro-Max(最高推理强度)对 Claude Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1-Pro High、Kimi K2.6 Thinking、GLM-5.1 Thinking 的方式给出。 编程是 V4-Pro 最拿得出手的一栏。LiveCodeBench 93.5 分居首,超过 Gemini 3.1-Pro 的 91.7 和 K2.6 的 89.6;Codeforces 内部评测 3206 分排第一,压过 GPT-5.4 的 3168 和 Gemini 的 3052,报告提到这让 V4-Pro-Max 在 Codeforces 人类榜单上排第 23。Apex Shortlist 90.2 同样居首。报告原话:"this is the first time an open model has matched a closed model on this task."
数学同样硬。HMMT 2026 Feb 95.2、IMOAnswerBench 89.8、Apex 38.3(这一项被 Gemini 的 60.9 碾压)。形式化数学上,V4-Flash-Max 在 Putnam-200 Pass@8 设置拿到 81.00,比 Seed-2.0-Pro 的 35.5 和 Gemini-3-Pro 的 26.5 高出一大截;Putnam-2025 hybrid 设置 120/120 满分。
知识类呈现"开源第一、闭源次席"的分裂格局。SimpleQA-Verified 57.9 分比所有开源模型高 20+ 个百分点(K2.6 36.9、GLM 38.1),但仍输给 Gemini 3.1-Pro 的 75.6。Chinese-SimpleQA 84.4 同样是开源第一。MMLU-Pro 87.5 打平 GPT-5.4,落后 Gemini 的 91.0;HLE 37.7 则落后 Gemini(44.4)、Opus(40.0)、GPT-5.4(39.8)。报告把这条差距明说为"距前沿闭源约 3 到 6 个月"。
Agent 类是 V4-Pro 最模糊的一栏。SWE Verified 80.6 与 Gemini 并列、距 Opus 80.8 一步之遥;但 SWE Pro 只有 55.4,反被开源的 K2.6(58.6)和 GLM(58.4)甩开。Terminal-Bench 2.0 拿 67.9,落后 GPT-5.4 的 75.1;BrowseComp 83.4 略低于 Opus 83.7 和 Gemini 85.9;HLE w/ tools 48.2 垫底。唯一亮眼是 MCPAtlas Public 73.6 和 Toolathlon 51.8 两项 MCP/多工具评测小幅领先。GDPval-AA Elo 1554 超过 Gemini 和 K2.6,但仍落后 GPT-5.4(1674)和 Opus(1619)。
长上下文是个典型的"效率赢、质量输"结论。V4-Pro 在 MRCR 1M 拿 83.5,超过 Gemini 3.1-Pro 的 76.3,但被 Claude Opus 4.6 的 92.9 甩开近 10 个百分点;CorpusQA 1M 62.0 同样超 Gemini(53.8)、输 Opus(71.7)。报告给出的 MRCR 曲线显示,V4-Pro 在 128K 内稳定 0.90+,256K 掉到 0.82,1M 掉到 0.59——Opus 在 1M 仍能保持高得多的 MMR。
内部 R&D 编码评测则是另一个独立数据点:从 50+ 内部工程师收集 200 个真实任务、筛选 30 个做评测,V4-Pro-Max 通过率 67%,超过 Sonnet 4.5(47%)、不如 Opus 4.5(70%)、更不如 Opus 4.6 Thinking(80%)。85 位 DeepSeek 研发的内部调研里,52% 的人说 V4-Pro 可以作为默认主编码模型,39% 倾向是,不到 9% 说否。
四、后训练、真实任务与局限:OPD 替代 mixed RL,中文写作压 Gemini,但硬 Agent 仍输 Opus
后训练路线这次做了结构性替换——V3.2 的 mixed RL 阶段被 On-Policy Distillation(OPD)整个替换。先按领域训专家(SFT + GRPO RL,domain-specific reward),再用 10+ 个 teacher 模型做多教师 OPD,学生在自己采样的轨迹上最小化反向 KL。报告特别提到他们用 full-vocabulary logit 蒸馏而非 token-level KL 近似,梯度估计更稳但工程复杂度高——teacher 权重统一 offload 到 3FS 分布式存储,按需加载,只缓存最后一层 hidden state 现场重算 logits。
推理模式做成三档(Non-think / Think High / Think Max),架构上用 标签区分,Think Max 还会在 system prompt 前加一段"最大化推理努力、严格压力测试、彻底分解问题"的注入指令。上下文窗口分别设 8K / 128K / 384K。工具调用 schema 换成了 <|DSML|> 前缀的 XML 格式,理由是 XML 比 JSON 更能避免转义错误。Interleaved Thinking 在工具调用场景下保留跨用户轮次的完整推理历史,普通对话则维持旧策略(新用户消息到来时丢弃 thinking)。
Agent 基础设施方面,DeepSeek 自研了 DSec(DeepSeek Elastic Compute)沙箱平台,用 Rust 写的三组件(Apiserver / Edge / Watcher)跑在 3FS 上,单集群并发数十万沙箱,统一暴露 Function Call / Container(EROFS 按需加载)/ microVM(Firecracker)/ fullVM(QEMU)四种执行底座。
真实任务评测分成几块:
- 中文功能写作:V4-Pro vs Gemini 3.1-Pro 胜率 62.65% vs 34.10%,报告原因是 Gemini 会用自己的风格偏好覆盖用户要求
- 中文创意写作:指令遵循胜率 60.03%、写作质量胜率 77.48%
- 复杂指令 + 多轮写作:反过来——Claude Opus 4.5 胜 52.0%,V4-Pro 胜 45.9%
- 白领任务(30 个高级中文专业任务,13 个行业):V4-Pro-Max vs Opus 4.6-Max 综合胜率 53% / 37% / 10%,分项得分 86.52 vs 84.06;V4 在"任务完成"(98.32 vs 96.68)和"内容质量"(83.32 vs 78.00)占优,但"指令遵循"(87.76 vs 88.88)和"格式美学"(76.68 vs 72.68)有结构性短板
- Agentic Search:平均 16.2 次工具调用、1.3 万输入 token,比 RAG 胜率 61.7%
局限部分,作者在结论章节自己点名:
- 架构"较为复杂",保留了很多未完全精简的组件,下一版会蒸馏出最本质设计
- Anticipatory Routing 和 SwiGLU Clamping 的底层机制尚不清楚
- V4-Flash 在知识型任务上落后 V4-Pro 是参数规模决定的结构性差距
- 未来方向包括多模态、更稀疏的 embedding、低延迟架构
对运营方和开发者的实操含义比较明确:这是目前开源阵营里知识能力最强的模型,且在编程竞赛和中文写作上已经打入前沿闭源的第一梯队;但如果核心诉求是 1M 超长文档精准检索,Opus 4.6 仍然是更稳的选择;如果是硬 Agent 工作流(SWE Pro、Terminal Bench 高端场景),K2.6 / Opus 系列仍有明显优势。V4-Flash 适合成本敏感的批处理,Pro 适合复杂任务。DeepSeek 自己给出的定位已经很克制——"距前沿闭源 3-6 个月",这个距离可能就是下一版 V4 正式版要弥补的空间。
技术报告原文:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
模型开源地址:https://huggingface.co/collections/deepseek-ai/deepseek-v4