月之暗面Kimi-K2-Thinking震撼来袭！Agent 和推理能力大升级

2025-11-07 10:34

想体验一把真正会"深度思考"的AI吗？2025年11月6日，月之暗面（Moonshot AI）正式推出了Kimi K2 Thinking开源模型。相比之前的Kimi K2，这个新版本在深度推理和自主执行任务方面有了质的飞跃，最多能进行300轮工具调用来帮你解决各种难题。简单说，它就像给AI装上了一个"会思考的大脑"。

推理性能全面提升

Kimi K2 Thinking在"人类最后的考试"（Humanity's Last Exam）这个变态难的测试中拿下了44.9%的成绩，这可是目前最好的表现了。你要知道，这个考试覆盖了100多个专业领域，难度可想而知。在允许使用搜索、Python、网络浏览这些工具的条件下，Kimi K2 Thinking展现出了超强的推理和解决问题的能力。

自主搜索与浏览能力全面提升

在BrowseComp这个专门测试AI网络浏览能力的基准里，Kimi K2 Thinking拿到了60.2%的成绩，再次刷新了记录。要知道，普通人在这个测试上平均只能拿29.2%。这个模型能像个较真的研究员一样"刨根问底"，通过"思考→搜索→浏览→再思考→编程"这样的循环，可能要重复上百轮，最终给你一个逻辑自洽的答案。

Agentic编程能力持续精进

编码方面也有明显进步。在SWE-Multilingual、SWE-bench验证集这些测试中，Kimi K2 Thinking的表现都更上一层楼。特别是处理HTML、React这类前端任务时，它能把你脑海里模糊的想法直接变成能用的产品。在复杂的开发场景中，它可以边调用工具边思考，处理那些需要多个步骤的开发任务。

通用基础能力升级

创意写作这块，Kimi K2 Thinking能把你零碎的灵感整理成有感染力的文字，既有节奏感又有深度。写长文的时候也能保持风格统一，意象更生动，情感表达也更到位。

学术研究方面，分析更深入了，信息也更准确。处理学术论文、技术摘要这类对逻辑要求特别高的内容时，它能把复杂的要求理得清清楚楚。

回答个人或情感类问题时，它的语气更有同理心了，也更中立客观。能给你提供具体可行的建议，帮你理清复杂的决策，感觉更像是在和一个真实的人对话。

原生INT4量化提升推理效率

技术层面还有个亮点——原生支持INT4量化。这让模型的生成速度提升了大约2倍，对国产芯片也更友好。你看到的那些测试成绩，都是在INT4精度下跑出来的。

现在开始使用

想试试的话很简单，去kimi.com或者下载最新版Kimi App，在"工具箱"里打开K2模型的"长思考"开关就行。API也已经在Kimi开放平台（platform.moonshot.cn）上线了，支持256K上下文。价格和Kimi K2-0905一样，输入每百万Token 4元，输出16元，缓存命中的输入只要1元。如果你需要更快的速度，还有Turbo API可选，速度能达到100 Token/s，输入每百万Token 8元，输出58元。

不管是研究、写作，还是编程，Kimi K2 Thinking都能成为你的得力助手。它不只是个工具，更像是个会思考的伙伴，能陪你一起解决那些看起来很棘手的问题。

好文章，需要你的鼓励