前端和智能体打过Gemini 3 PRO，国内的kimi K2.5太强了！

评测问答助手任务执行

2026-02-02

126

前言

前端设计类

办公提效类

小结

前天，Kimi K2.5登顶Text Arena开源模型榜首，一经发布就在某推上热度起飞，掀起春节前开源模型热潮。

先亮亮Kimi K2.5令人惊艳的基准测试单。

同GPT、Claude、Gemini相比，它在一众代理任务等一众高难度测试集上，拿下了榜首；在编程、图像、视频相关性能测试中，它也不是垫底的。

翻译成大白话就是，Kimi 2.5相比过去的自己，多模态能力大幅提升，新增多模态视觉理解和图像处理功能，核心特色在于在智能体任务和视觉编码方面抗打，代理任务甚至超过国际那三巨头。

反映在操作层面，就是它有下面这四种模式，其中agent常见的有做网站、文档处理、表格处理、生成ppt和深度研究。

光说不练假把式，现在直接通过前端设计、办公执行两大类，给大家看看它牛掰的智能体任务和视觉编码。

一、前端设计类

agent-复刻音乐网站

这是反扒图片的代码。我原以为提示词要写得比较详细，才能得到个“哇塞”的效果。是我想多了，就一句话，结果就能出乎意料。

提示词：参考这个网页，生成对应代码。

（原图）

（生成图）

真的是除了一个账号头像之外，界面超级还原；动效自然，列表可排序；图都OK，不全的还能自己补全，图上的字也不会乱码。整体非常真实，真实到可以以假乱真。

我之前用Gemini 3 PRO，前端复刻效果都达不到这样真实精良的程度！

kimi k2.5的任务优化能力也是杠杠的，图上标记能识别，简单一句，迅速搞定！

（标识图）

（修改后的图）

提示词：请将这个网站换成淡青和白色的配色，并按照截图标识将两个部分调换位置。

完全按照要求改了！

唯一值得人吐槽的一点，就是从0生成的任务耗时太长，至少半个多小时。

agent-复刻烟花动效

这是反扒视频的代码。就神奇，一个生活中常见的烟花动效，输入几个字，就能生成相似的效果。

（原动图）

（生成动图）

提示词：实现这个交互特效。

还自带交互按钮。虽然烟花不是一模一样的，但动效确实很还原了。

agent-生成K线图

金融领域的前端设计也抗打。

（生成效果）

提示词：ECharts 5：实时跳动 K 线图（叠加均线）。

蜡烛图上的开盘、收盘那些数据都全的。不过因为没有指定具体股，我也懒得打开股票网站大海捞针了，直接定结论：盘面数据可能不是真实的。

大家也可以试试真实股指定，看能否得到真实的数据。

据网友测试，它能搜集多张真实的公司融资信息表，且所有数据都正确，所以跳动的K线图说不定也能够得到真实数据。

K2.5思考-构建系统

你以为复杂任务只能agent完成？

NO！

K2.5普通的思考模式的完成结果都能吊打Gemini 3 PRO。

比如之前给过Gemini 3 PRO的windows系统指令：

提示词：

设计并创建一个类似 Windows 操作系统的 Web OS，具备完整功能：从文本编辑器、带 Python 的终端、代码编辑器、可玩的游戏，到文件管理器、画图工具、视频编辑器，以及所有重要的 Windows 系统预装软件。可以使用任意库来实现，但务必确保我能把所有代码粘贴进单个 HTML 文件里，并直接在 Chrome 中打开运行。让整体效果有趣、细节丰富，呈现出超出常人预期的细节，在一个代码块中尽情发挥创意与美感。

K2.5是买一送一，移动端的界面也送我了，送的还是高档货——同电脑端界面一样，文件、画图工具、游戏等应用都能打开使用。