月之暗面Kimi-K2-Thinking震撼来袭!Agent 和推理能力大升级
想体验一把真正会"深度思考"的AI吗?2025年11月6日,月之暗面(Moonshot AI)正式推出了Kimi K2 Thinking开源模型。相比之前的Kimi K2,这个新版本在深度推理和自主执行任务方面有了质的飞跃,最多能进行300轮工具调用来帮你解决各种难题。简单说,它就像给AI装上了一个"会思考的大脑"。

推理性能全面提升
Kimi K2 Thinking在"人类最后的考试"(Humanity's Last Exam)这个变态难的测试中拿下了44.9%的成绩,这可是目前最好的表现了。你要知道,这个考试覆盖了100多个专业领域,难度可想而知。在允许使用搜索、Python、网络浏览这些工具的条件下,Kimi K2 Thinking展现出了超强的推理和解决问题的能力。

自主搜索与浏览能力全面提升
在BrowseComp这个专门测试AI网络浏览能力的基准里,Kimi K2 Thinking拿到了60.2%的成绩,再次刷新了记录。要知道,普通人在这个测试上平均只能拿29.2%。这个模型能像个较真的研究员一样"刨根问底",通过"思考→搜索→浏览→再思考→编程"这样的循环,可能要重复上百轮,最终给你一个逻辑自洽的答案。
Agentic编程能力持续精进
编码方面也有明显进步。在SWE-Multilingual、SWE-bench验证集这些测试中,Kimi K2 Thinking的表现都更上一层楼。特别是处理HTML、React这类前端任务时,它能把你脑海里模糊的想法直接变成能用的产品。在复杂的开发场景中,它可以边调用工具边思考,处理那些需要多个步骤的开发任务。
通用基础能力升级
创意写作这块,Kimi K2 Thinking能把你零碎的灵感整理成有感染力的文字,既有节奏感又有深度。写长文的时候也能保持风格统一,意象更生动,情感表达也更到位。
学术研究方面,分析更深入了,信息也更准确。处理学术论文、技术摘要这类对逻辑要求特别高的内容时,它能把复杂的要求理得清清楚楚。
回答个人或情感类问题时,它的语气更有同理心了,也更中立客观。能给你提供具体可行的建议,帮你理清复杂的决策,感觉更像是在和一个真实的人对话。
原生INT4量化提升推理效率
技术层面还有个亮点——原生支持INT4量化。这让模型的生成速度提升了大约2倍,对国产芯片也更友好。你看到的那些测试成绩,都是在INT4精度下跑出来的。
现在开始使用

想试试的话很简单,去kimi.com或者下载最新版Kimi App,在"工具箱"里打开K2模型的"长思考"开关就行。API也已经在Kimi开放平台(platform.moonshot.cn)上线了,支持256K上下文。价格和Kimi K2-0905一样,输入每百万Token 4元,输出16元,缓存命中的输入只要1元。如果你需要更快的速度,还有Turbo API可选,速度能达到100 Token/s,输入每百万Token 8元,输出58元。
不管是研究、写作,还是编程,Kimi K2 Thinking都能成为你的得力助手。它不只是个工具,更像是个会思考的伙伴,能陪你一起解决那些看起来很棘手的问题。
