K2.7 Code发布并开源：3项基准最高涨31.5%，推理token省30%

2026-06-12 18:24

6月12日消息，月之暗面正式发布并开源Kimi K2.7 Code编程模型。官方公布的数据显示，相较于K2.6，K2.7 Code在Kimi Code Bench v2上提升21.8%，Program Bench上提升11.0%，MLS Bench Lite上提升31.5%，同时推理token消耗减少30%。模型即日起通过Kimi API和Kimi Code编程助手向所有用户开放，6倍高速模式即将推出。

三组基准数据拆解——K2.7改了什么

K2.7 Code公布了三项基准测试的提升幅度，每一项指向不同的能力维度。

Kimi Code Bench v2提升21.8%。这是月之暗面自建的编码基准，侧重评估在Kimi Code终端环境中的实际编程表现。21.8%的涨幅说明K2.7在"终端Agent式编码"这个月之暗面最核心的产品场景中有实质性改进。

Program Bench提升11.0%。相较于另外两项，这个涨幅偏保守，可能反映的是通用编程任务（非Agent式、非长程）的能力增量——K2.7的优化重心不在单次代码补全，而在端到端任务完成。

MLS Bench Lite提升31.5%，这是三项中涨幅最大的。MLS（Multi-step Long-range Software）测试评估的是多步骤、长周期软件工程任务的完成能力——正是K2.6发布时重点强调的"连续编码13小时+4000行代码"方向的延续。31.5%的跳升说明K2.7在长程任务上做了最大力度的优化。

一个同样重要的改进藏在性能数字之外：推理token消耗减少30%。官方表述是"减少过度思考"（reduced overthinking）。这直接回应了K2.6的一个已知问题——thinking模式下模型倾向于生成过长的推理链，在简单任务上浪费算力和时间。30%的token节省意味着对API调用方来说，同样的编程任务成本降低近三成，对Kimi Code用户来说，响应速度会有明显提升。

从K2.5到K2.7——5个月3个大版本的节奏

把K2.7放进月之暗面的迭代时间线上：K2.5在1月发布并开源（万亿参数MoE架构，引发Cursor"套壳"争议，SWE-Bench Verified 76.8%）；K2.6在4月发布并开源（长程编码13小时/4000+行代码，300个子Agent集群调度，Terminal-Bench 2.0得分66.7，SWE-Bench Pro 58.6，对标GPT-5.4和Claude Opus 4.6）。

K2.7 Code在6月发布并开源，距K2.6约7-8周。月之暗面保持了每2-3个月一次大版本更新的节奏，但K2.7的发布策略有一个微妙变化：这次直接发布的是"K2.7 Code"而非通用版K2.7，且公布的全部基准都围绕编码场景。这说明K2.7可能不是一个全面升级的通用版本，而是专门针对Kimi Code产品线的编码能力迭代——月之暗面在编程Agent赛道上的投注越来越重。

另一个值得注意的信号：官方预告"6倍高速模式即将推出"。如果这指的是推理速度而非API限流，意味着月之暗面在推理优化上可能做了量化或蒸馏层面的工作，这将直接影响Kimi Code作为终端编程工具的交互体验——编程Agent的用户对延迟极其敏感。

此前Reddit社区有传闻称月之暗面在研发K3（目标3-4万亿参数）。K2.7 Code的出现说明在冲刺K3之前，月之暗面仍在通过".x"版本对K2系列的编码能力做快速打补丁——这和OpenAI在GPT-4到GPT-5之间密集推出中间版本的策略一脉相承。

竞品对比——编程Agent赛道的token经济性之争

K2.7 Code"推理token省30%"这个数据值得单独拿出来看，因为它指向的是编程Agent赛道当前最关键的竞争维度之一：token经济性。

Anthropic的Claude Code在终端编程Agent品类中拥有最强的品牌认知，但Claude Opus系列的推理成本一直是开发者的痛点——复杂编程任务动辄消耗数十万token，API账单极高。OpenAI的Codex走异步Agent路线，通过后台排队执行降低单次成本，但牺牲了实时交互体验。

月之暗面的策略是从两个方向同时压缩成本：一是开源（K2.5、K2.6、K2.7均开源，允许企业在自有GPU上运行，彻底回避API定价问题）；二是减少过度思考（K2.7的30% token节省直接降低了API模式下的使用成本）。

如果"6倍高速模式"兑现，Kimi Code可能在"开源+低成本+快响应"这个组合上建立起与Claude Code和Codex都不同的差异化位置。不过需要提醒的是，K2.6发布时曾出现上线功能异常、被迫全员额度重置补偿的情况——大规模用户涌入后的稳定性，仍然是月之暗面需要反复证明的。

三个待观察问题

基准数字的含金量。 K2.7 Code公布的三项基准中，Kimi Code Bench v2和MLS Bench Lite是月之暗面内部基准，Program Bench也非行业通用标准。相比K2.6发布时同时公布SWE-Bench Pro、Terminal-Bench 2.0、DeepSearchQA等行业公认基准的做法，K2.7 Code这次的数据说服力要弱一些。如果后续没有第三方独立评测（如Vercel、Factory.ai等合作伙伴的验证数据），开发者社区的采信度可能有限。

K2.7通用版是否存在。 K2.6走过"Code Preview→通用版正式发布"的路径。K2.7目前只有Code版本，且全部基准都围绕编码——它究竟是K2系列的下一个完整版本，还是K2.6的编码增强补丁？这影响社区对K2.7在通用任务上能力的预期。

开源后的社区反应。 K2.5开源时引发了Cursor"套壳"争议，K2.6开源后在ModelScope和HuggingFace上的下载和fork数据表现不错。K2.7 Code如果只是编码方向的增量优化，社区关注度可能不如K2.6。但如果"减少30%推理token"的优化是架构层面的改进而非仅限于编码场景，那么这项技术在通用模型上的迁移价值可能被低估。

好文章，需要你的鼓励