DeepSeek发布IMO金牌水平数学模型DeepSeekMath-V2

2025-11-28 10:40
阅读74

DeepSeek再次放大招!全新开源数学模型DeepSeekMath-V2正式发布,专攻可自验证的数学推理。这个模型不仅在IMO 2025和CMO 2024中拿到金牌级分数,在Putnam 2024里更是打出118/120的成绩,把人类最高分90甩在了后面。如果你关注AI数学推理领域,这次开源可以说是个里程碑事件——第一个开源的IMO金牌模型终于来了。

image.png

刚发布,DeepSeekMath-V2就在各类CNML级别问题上全面碾压GPT-5-Thinking-High和Gemini 2.5-Pro,不管是代数、几何、数论,还是组合学、不等式,样样都占上风。

这下谷歌和OpenAI估计得头疼了。特别是OpenAI,本来还打算靠IMO金牌模型来应对谷歌Gemini 3 Pro的冲击,结果被DeepSeek抢了先。

顺带一提,这篇论文的第一作者邵智宏之前就是DeepSeekMath 7B的一作,当时他们团队提出的GRPO方法在圈内还挺有名的。(鲸鱼又回来搞事情了!)

最强开源IMO金牌模型

image.png

DeepSeekMath-V2是个685B参数的大型语言模型,核心目标是实现自验证数学推理(Self-verification)。你可能会问,这跟以前的模型有啥不一样?

关键就在于它开发出了强大的证明验证能力,然后用这个能力来指导和优化证明生成过程。这样一来,就能绕开传统强化学习方法那种只看最终答案给奖励的局限性。

传统的数学推理强化学习方法确实存在几个硬伤:

最终答案奖励不靠谱——把奖励机制建立在最终答案是否正确上,根本没法保证推理过程的正确性。很多时候模型用错误的逻辑也能蒙对答案,这不就瞎了吗?

定理证明任务玩不转——数学里有大量任务压根不需要数值答案,像定理证明这种,要的是严密的步骤推导和逻辑,光看最终答案根本行不通。

缺少内部验证——用传统方法训练出来的模型,自己都没法验证自己的证明对不对,经常会把错误的证明当成正确的,假阳性率高得离谱。

DeepSeekMath-V2的解决方案挺聪明——它采用迭代式的强化学习循环,让证明验证器和证明生成器交替优化。简单说就是,验证器负责判断证明是否有效,生成器根据反馈不断改进证明过程,两个组件相互促进,形成正向循环。

这种设计让模型不只是会解题,还懂得检查自己的推理过程靠不靠谱。你想想看,如果AI能像人类数学家那样自己验证推理步骤,那在数学研究和教育领域的应用空间得有多大。

现在DeepSeekMath-V2已经完全开源,开发者们可以直接拿去用了。对于AI数学推理这个赛道来说,这次开源释放的信号很明确——高性能的数学推理模型不再是大厂的专属玩具。接下来可能会有更多研究者基于这个模型做各种有意思的尝试,数学AI的发展节奏估计要加快不少。

0
好文章,需要你的鼓励