前端和智能体打过Gemini 3 PRO,国内的kimi K2.5太强了!
评测问答助手任务执行
2026-02-02
126

目录
- 前言
- 前端设计类
- 办公提效类
- 小结
前天,Kimi K2.5登顶Text Arena开源模型榜首,一经发布就在某推上热度起飞,掀起春节前开源模型热潮。

先亮亮Kimi K2.5令人惊艳的基准测试单。

同GPT、Claude、Gemini相比,它在一众代理任务等一众高难度测试集上,拿下了榜首;在编程、图像、视频相关性能测试中,它也不是垫底的。
翻译成大白话就是,Kimi 2.5相比过去的自己,多模态能力大幅提升,新增多模态视觉理解和图像处理功能,核心特色在于在智能体任务和视觉编码方面抗打,代理任务甚至超过国际那三巨头。
反映在操作层面,就是它有下面这四种模式,其中agent常见的有做网站、文档处理、表格处理、生成ppt和深度研究。


光说不练假把式,现在直接通过前端设计、办公执行两大类,给大家看看它牛掰的智能体任务和视觉编码。
一、前端设计类
agent-复刻音乐网站
这是反扒图片的代码。我原以为提示词要写得比较详细,才能得到个“哇塞”的效果。是我想多了,就一句话,结果就能出乎意料。
提示词:参考这个网页,生成对应代码。

(原图)

(生成图)
真的是除了一个账号头像之外,界面超级还原;动效自然,列表可排序;图都OK,不全的还能自己补全,图上的字也不会乱码。整体非常真实,真实到可以以假乱真。
我之前用Gemini 3 PRO,前端复刻效果都达不到这样真实精良的程度!
kimi k2.5的任务优化能力也是杠杠的,图上标记能识别,简单一句,迅速搞定!

(标识图)

(修改后的图)
提示词:请将这个网站换成淡青和白色的配色,并按照截图标识将两个部分调换位置。
完全按照要求改了!
唯一值得人吐槽的一点,就是从0生成的任务耗时太长,至少半个多小时。
agent-复刻烟花动效
这是反扒视频的代码。就神奇,一个生活中常见的烟花动效,输入几个字,就能生成相似的效果。

(原动图)

(生成动图)
提示词:实现这个交互特效。
还自带交互按钮。虽然烟花不是一模一样的,但动效确实很还原了。
agent-生成K线图
金融领域的前端设计也抗打。

(生成效果)
提示词:ECharts 5:实时跳动 K 线图(叠加均线)。
蜡烛图上的开盘、收盘那些数据都全的。不过因为没有指定具体股,我也懒得打开股票网站大海捞针了,直接定结论:盘面数据可能不是真实的。
大家也可以试试真实股指定,看能否得到真实的数据。
据网友测试,它能搜集多张真实的公司融资信息表,且所有数据都正确,所以跳动的K线图说不定也能够得到真实数据。

K2.5思考-构建系统
你以为复杂任务只能agent完成?
NO!
K2.5普通的思考模式的完成结果都能吊打Gemini 3 PRO。
比如之前给过Gemini 3 PRO的windows系统指令:
提示词:
设计并创建一个类似 Windows 操作系统的 Web OS,具备完整功能:从文本编辑器、带 Python 的终端、代码编辑器、可玩的游戏,到文件管理器、画图工具、视频编辑器,以及所有重要的 Windows 系统预装软件。可以使用任意库来实现,但务必确保我能把所有代码粘贴进单个 HTML 文件里,并直接在 Chrome 中打开运行。让整体效果有趣、细节丰富,呈现出超出常人预期的细节,在一个代码块中尽情发挥创意与美感。
K2.5是买一送一,移动端的界面也送我了,送的还是高档货——同电脑端界面一样,文件、画图工具、游戏等应用都能打开使用。
(kimi生成效果)
(Gemini生成效果)
Gemini 3 PRO都没法玩游戏的!
二、办公提效类
文档处理
agent任务中,文档、表格、ppt等类型是核心。ppt暂且不讲了,国内刚兴起AI的时候,它的ppt就杀出圈了,现在不用想也是更好用。
这里重点说下另外两个。
先来处理个不算特别复杂的场景——发票整理。
我上传了包含图片、word、pdf等多种格式的5份发票附件,最终处理的智能程度超乎我的想象,实用度杠杠的。
提示词:识别上传的所有发票,将发票日期、销售方名称、项目名称、合计金额、税率提取到 Excel 表格中。超出一万元的发票金额列用红底展示。
这是它反馈给我的表格:

是真的能下载到本地的xlsx格式的表格,不是网页中列表的形式。
表格是真的能打开,且信息提取成功(不漏且准确),逻辑判断成功,颜色标记成功,排版美观。

我从未想到它能直接处理到这一步,直接生成达到交付的成品给你,连sheet的名称都修改好了。人工处理都可能有格式上的遗漏项好吧!
excel表处理
如果说上面的文档处理只是小试牛刀,那么这次的excel表处理就是大显身手(高级agent的体现)了!
高级agent不是我说的,是k2.5的对手Gemini Pro说的。
提示词:
请你扮演合规专员。完成下面任务:
1.根据公司政策:(1)仅限加班至 22:00 后可报销回常住地的车费;(2)严禁虚假报销或重复报销;(3)报销目的地必须为居住社区。请分析附件1表格,指出所有违规嫌疑并说明理由。
2.附件1检查完毕后,请将附件1中的通过的行信息整合到附件2中(按附件2格式排列)

(Gemini Pro给出的评价方案)
这是k2.5 agent给出的答卷:


两个子表,要素齐全,逻辑在线,汇总准确,排版美观。
嗯,我承认,我都做不到它这种程度。
细看核心打车报销汇总信息,它识别出了出发地、目的地问题,发现了同人同时段两条信息的问题,违规的报销信息基本都找出来了(只差张三第7条报销问题没找出)。
只差这一点,就能堪称完美无瑕了。
瑕不掩瑜,它依然能替代人工检查合规性的绝大部分环节。

当然,表格处理不限于此,各种五花八门的玩法都有,能形成“数据采集-数据清洗-数据建模-数据可视化-报告形成”这数据分析领域的闭环。
毕竟,它可是被微软认定的办公生产力工具。

kimi 2.5的火力全开,可能远不止于此。
三、小结
kimi 2.5 agent了都令人瞠目结舌了,更别说一骑绝尘的K2.5 Agent 集群了!
可惜这个集群只有顶格会员才能使用,使用效果就只有靠有心之人分享了!
说到会员,kimi 2.5 agent也只能“好钢用在刀刃上”,毕竟初级和中级会员都无法让人纵情享受。
话又说回来,kimi 2.5的智能体任务、视觉编码给人如此震撼的冲击,即便有生成耗时长的缺点,也会有大量网友为它买单吧?
你愿意买单吗?
欢迎在评论区分享你的看法,我们一起讨论,也欢迎大家入群交流哦~

12
好文章,需要你的鼓励
