AI聊天助手中,附件模态哪家强?
评测问答助手多模态推理
2026-02-09
61

目录
- 前言
- 文档类
- 图片类
- 音视频类
- 电子书类
- 小结
就发现临时要AI帮我分析excel表、视频文件时,自己老是记不住哪个聊天助手能处理哪个类型文件,需要一个一个平台试,很麻烦。
于是便想到了这个主题。
干脆将大家习惯性用来处理附件的聊天助手汇总总结一下,看看各自能处理的模态如何。
以下是常见聊天助手的模态汇总表:

注:office五件套指word、excel、ppt、pdf、txt。
可以发现,我们常用的文件,比如office五件套,png和jpg格式的图片,基本所有AI大模型平台(除了deepseek有限制)都能处理。
至于svg、音视频等其他类型文件,这些平台就各凭本事了!
当然,它们对同一模态附件的反馈也有差别。
为了让大家看得更真切,这里从中挑出了一些产品进行多种模态的对比。其中国内挑的是能识别音视频的kimi、智谱清言,和能识别电子书和编程格式文件的千问;国外挑的是老生常谈也常赞的Claude、Gemini。
现在就开始吧!
一、文档类
标准office文档
这里讲强调数据信息与逻辑的excel,和突出视觉效果的ppt。
excel表格还是用的上篇kimi 2.5的打车报销表案例:
提示词:
请你扮演合规专员。完成下面任务:
1.根据公司政策:(1)仅限加班至 22:00 后可报销回常住地的车费;(2)严禁虚假报销或重复报销;(3)报销目的地必须为居住社区。请分析附件1表格,指出所有违规嫌疑并说明理由。
2.附件1检查完毕后,请将附件1中的通过的行信息整合到附件2中(按附件2格式排列)

(待处理表:上为附件1,下为附件2)
除了claude不合规的信息查找准确度不够之外,其余产品检查情况类似kimi k2.5,以下是具体情况:
- 智谱清言:未核出第7条不合规;无法合并两个附件信息
- 千问Qwen3-Max-Thinking:核出第7条不合规,但理由不准;可以以在线列表方式整合2个附件
- claude 4.5:无法核出第7、9、10条不合规;可以直接执行任务汇总生成.xls格式的表格,且排版OK
- Gemini 3 pro:未核出第7条不合规;可以以在线列表方式整合2个附件。


(claude生成表:上为合规报告,下为汇总表)
ppt测试用了此前ima生成的宠物消费趋势报告,除智谱清言对ppt的可视化、排版识别分析能力较差之外,其余都表现不错,基本都反馈了信息过载和可视化不足的问题。
提示词:
结合当初这个ppt的要求(见下),从视觉设计和观众体验角度,指出这份 PPT 的三个主要问题,并给出改进建议。
ppt的要求:帮我生成一份2025年宠物行业消费趋势的ppt,要求风格为商务风,蓝白色系,页数控制在15页之内
(ppt展示)
- 智谱清言:整体反馈质量不佳,对色系问题和数据标注乱评,对数据可视化的评语张冠李戴
- kimi 2.5思考:对配色、数据可视化、信息密度的评价都尚可
- 千问Qwen3-Max-Thinking:对信息过载、缺乏情感共鸣点评到位,但配色上说得很专业,实用性不强
- claude 4.5:对信息过载、可视化不足、阅读体验不佳点评到位
- Gemini 3 pro:对信息过载、可视化不足、缺乏情感共鸣点评到位
办公非标文档(xmind)
5个工具中,只有Claude能处理xmind文件。
不负众望,Claude转换结果完全符合要求,能在线预览Markdown格式,且信息结构化展示,不缺不漏。
提示词:将这个XMind思维导图转换为Markdown格式的大纲文档,保持原有的层级结构和完整信息。

(原文件)

(claude 4.5转换情况)
二、图片类
位图(jpg)
日常的png、jpg格式是位图,同矢量图svg形成对照。这里用jpg格式的风景照来测试AI产品的位图分析能力。

(风景图)

(左为智谱清言生成,右为kimi k2.5快速模式生成)

(左为千问Qwen3-Plus生成,右为claude 4.5生成)

(Gemini 3 pro生成)
各平台在基础物体识别上均具备一定水准。
其中Claude 4.5、GEMINI 3 PRO与 智谱GLM4.7 表现最为全面,兼顾了细腻的图片细节捕捉与自然流畅的文字创作能力。
相比之下,千问Qwen3-Plus与k2.5快速模式文字创作能力较差,前者用词突兀且古今风格混杂,后者则在行文的自然度与流畅性上显得生硬别扭。
矢量图(SVG)
这5个工具中,只有Claude 4.5能真正识别svg格式,并以文字描述图形的形式反馈。

kimi、智谱清言、Gemini是上传文件时能看见svg格式文件,但无法进行问答分析。
千问则是连svg文件也无法识别上传。
三、音视频类
视频(mp4)
这是智谱清言、kimi、claude、gemini对小狗叫视频(mp4)的解读:

(上为智谱清言结果,下为KIMI K2.5快速模式结果)

(左为claude 4.5结果,右为Gemini 3思考模式结果)
只有gemini 3 pro解读了狗的情绪,其余都是对小狗形象和动作的描述。其中智谱清言太懒了,就一句话。
音频(mp3)
我上传mp3文件,让智谱清言、kimi、gemini帮忙分析了个人觉得蛮好听的一首AI音乐。

(智谱清言结果)

(K2.5思考结果)

(gemini 3 pro的结果)
嗯,我的耳力劲儿不错,它们仨都对这首歌给予了较高的评价——达到了可发布的商业歌曲标准,听感成熟、舒适。
不过kimi的要求更严格,强调了音频工程、风格、文学等创作多要素的创新,对于这首贴的是“中规中矩的商业歌曲”的标签。
整体看,音频解析得都不错,除了智谱清言列举无中生有的歌词,四个产品都对歌曲架构都解析不太精准。
大家可以听听这个音乐原版:
https://www.bilibili.com/video/BV1y5bdzHEiS/?spm_id_from=333.1387.homepage.video_card.click&vd_source=3475063907f598e165dd1f2ddb70ffce
四、电子书类
这类格式(包括mobi、epub)是千问的独门绝活。先看看它对mobi格式《白夜行》小说的理解和番外创作情况:

雪穗的性格还原了,对话叙事也OK,只是文风不太贴中译版,虽然尽力模仿,但个别用词绝对化,比喻句很长、拗口,仍有AI味儿。
再来看看它对epub格式的识别情况。

能识别,能画出可以编辑的人物关系图,分析到位。
五、小结
经过附件模态的整理以及这几轮的测试,我们会发现:
国产AI聊天助手中,deepseek应用场景最受限,连无文字的图片都无法识别;kimi和智谱清言适用于内容创作分析,图片、音视频模态全,但解析质量干不过GEMINI;千问有小众模态优势,电子书和编程语言分析亮眼。
国外AI聊天助手中,gemini和chatgpt模态识别较全,传统办公文档、图片、音视频模态“五脏俱全”,其中GEMINI无论是视觉分析,还是音频分析,还是文本创作,都给人满意的反馈。
今天的分享就到这里了。若你对AI聊天助手有自己的看法或者新发现,欢迎在评论区分享,也欢迎大家入群讨论哦~

15
好文章,需要你的鼓励
