DeepSeek V4 基准数据泄露：SWE-Bench 登顶 83.7%，多项能力领跑全球

2026-02-16 10:12

2月16日消息，DeepSeek V4 最新基准测试数据意外泄露，在多个权威评测中创下历史新高，展现中国 AI 实验室在代码生成与数学推理领域的全面领先实力。

代码能力登顶全球

SWE-Bench Verified 83.7% 的成绩标志着 DeepSeek V4 在真实软件工程任务上实现了质的飞跃。该基准测试要求模型能够理解和修改实际代码库中的复杂问题，83.7% 的通过率意味着模型已具备接近人类专业开发者的代码理解与生成能力。

数学推理逼近极限

AIME 2026 99.4% 的得分几乎触及该评测的天花板，IMO Answer Bench 88.4% 同样展现出一流的奥林匹克级数学解题能力。这表明 DeepSeek V4 在高级数学推理、符号计算和复杂问题求解方面已达到或超越当前顶尖水平。

FrontierMath 一骑绝尘

FrontierMath Tier 4 23.5% 的成绩尤为引人注目——这一成绩是 GPT-5.2 的 11 倍。FrontierMath 以极高难度的前沿数学问题著称，DeepSeek V4 在此项评测中的突破性表现，印证了其在处理人类尚待解决的复杂数学问题上的独特优势。

好文章，需要你的鼓励