AI聊天助手中，附件模态哪家强？

评测问答助手多模态推理

2026-02-09

前言

文档类

图片类

音视频类

电子书类

小结

就发现临时要AI帮我分析excel表、视频文件时，自己老是记不住哪个聊天助手能处理哪个类型文件，需要一个一个平台试，很麻烦。

于是便想到了这个主题。

干脆将大家习惯性用来处理附件的聊天助手汇总总结一下，看看各自能处理的模态如何。

以下是常见聊天助手的模态汇总表：

注：office五件套指word、excel、ppt、pdf、txt。

可以发现，我们常用的文件，比如office五件套，png和jpg格式的图片，基本所有AI大模型平台（除了deepseek有限制）都能处理。

至于svg、音视频等其他类型文件，这些平台就各凭本事了！

当然，它们对同一模态附件的反馈也有差别。

为了让大家看得更真切，这里从中挑出了一些产品进行多种模态的对比。其中国内挑的是能识别音视频的kimi、智谱清言，和能识别电子书和编程格式文件的千问；国外挑的是老生常谈也常赞的Claude、Gemini。

现在就开始吧！

一、文档类

标准office文档

这里讲强调数据信息与逻辑的excel，和突出视觉效果的ppt。

excel表格还是用的上篇kimi 2.5的打车报销表案例：

提示词：

请你扮演合规专员。完成下面任务：

1.根据公司政策：（1）仅限加班至 22:00 后可报销回常住地的车费；（2）严禁虚假报销或重复报销；（3）报销目的地必须为居住社区。请分析附件1表格，指出所有违规嫌疑并说明理由。

2.附件1检查完毕后，请将附件1中的通过的行信息整合到附件2中（按附件2格式排列）

（待处理表：上为附件1，下为附件2）

除了claude不合规的信息查找准确度不够之外，其余产品检查情况类似kimi k2.5，以下是具体情况：

智谱清言：未核出第7条不合规；无法合并两个附件信息

千问Qwen3-Max-Thinking：核出第7条不合规，但理由不准；可以以在线列表方式整合2个附件

claude 4.5：无法核出第7、9、10条不合规；可以直接执行任务汇总生成.xls格式的表格，且排版OK

Gemini 3 pro：未核出第7条不合规；可以以在线列表方式整合2个附件。

（claude生成表：上为合规报告，下为汇总表）

ppt测试用了此前ima生成的宠物消费趋势报告，除智谱清言对ppt的可视化、排版识别分析能力较差之外，其余都表现不错，基本都反馈了信息过载和可视化不足的问题。

提示词：

结合当初这个ppt的要求（见下），从视觉设计和观众体验角度，指出这份 PPT 的三个主要问题，并给出改进建议。

ppt的要求：帮我生成一份2025年宠物行业消费趋势的ppt，要求风格为商务风，蓝白色系，页数控制在15页之内

（ppt展示）

智谱清言：整体反馈质量不佳，对色系问题和数据标注乱评，对数据可视化的评语张冠李戴

kimi 2.5思考：对配色、数据可视化、信息密度的评价都尚可

千问Qwen3-Max-Thinking：对信息过载、缺乏情感共鸣点评到位，但配色上说得很专业，实用性不强

claude 4.5：对信息过载、可视化不足、阅读体验不佳点评到位

Gemini 3 pro：对信息过载、可视化不足、缺乏情感共鸣点评到位

办公非标文档（xmind）

5个工具中，只有Claude能处理xmind文件。

不负众望，Claude转换结果完全符合要求，能在线预览Markdown格式，且信息结构化展示，不缺不漏。

提示词：将这个XMind思维导图转换为Markdown格式的大纲文档，保持原有的层级结构和完整信息。

（原文件）

（claude 4.5转换情况）

二、图片类

位图（jpg）

日常的png、jpg格式是位图，同矢量图svg形成对照。这里用jpg格式的风景照来测试AI产品的位图分析能力。

（风景图）

（左为智谱清言生成，右为kimi k2.5快速模式生成）

（左为千问Qwen3-Plus生成，右为claude 4.5生成）

（Gemini 3 pro生成）

各平台在基础物体识别上均具备一定水准。

其中Claude 4.5、GEMINI 3 PRO与智谱GLM4.7 表现最为全面，兼顾了细腻的图片细节捕捉与自然流畅的文字创作能力。

相比之下，千问Qwen3-Plus与k2.5快速模式文字创作能力较差，前者用词突兀且古今风格混杂，后者则在行文的自然度与流畅性上显得生硬别扭。

矢量图（SVG）

这5个工具中，只有Claude 4.5能真正识别svg格式，并以文字描述图形的形式反馈。

kimi、智谱清言、Gemini是上传文件时能看见svg格式文件，但无法进行问答分析。

千问则是连svg文件也无法识别上传。

三、音视频类

视频（mp4）

这是智谱清言、kimi、claude、gemini对小狗叫视频（mp4）的解读：

（上为智谱清言结果，下为KIMI K2.5快速模式结果）

（左为claude 4.5结果，右为Gemini 3思考模式结果）

只有gemini 3 pro解读了狗的情绪，其余都是对小狗形象和动作的描述。其中智谱清言太懒了，就一句话。

音频（mp3）

我上传mp3文件，让智谱清言、kimi、gemini帮忙分析了个人觉得蛮好听的一首AI音乐。

（智谱清言结果）

（K2.5思考结果）

（gemini 3 pro的结果）

嗯，我的耳力劲儿不错，它们仨都对这首歌给予了较高的评价——达到了可发布的商业歌曲标准，听感成熟、舒适。

不过kimi的要求更严格，强调了音频工程、风格、文学等创作多要素的创新，对于这首贴的是“中规中矩的商业歌曲”的标签。

整体看，音频解析得都不错，除了智谱清言列举无中生有的歌词，四个产品都对歌曲架构都解析不太精准。

大家可以听听这个音乐原版：

https://www.bilibili.com/video/BV1y5bdzHEiS/?spm_id_from=333.1387.homepage.video_card.click&vd_source=3475063907f598e165dd1f2ddb70ffce

四、电子书类

这类格式（包括mobi、epub）是千问的独门绝活。先看看它对mobi格式《白夜行》小说的理解和番外创作情况：

雪穗的性格还原了，对话叙事也OK，只是文风不太贴中译版，虽然尽力模仿，但个别用词绝对化，比喻句很长、拗口，仍有AI味儿。

再来看看它对epub格式的识别情况。

能识别，能画出可以编辑的人物关系图，分析到位。

五、小结

经过附件模态的整理以及这几轮的测试，我们会发现：

国产AI聊天助手中，deepseek应用场景最受限，连无文字的图片都无法识别；kimi和智谱清言适用于内容创作分析，图片、音视频模态全，但解析质量干不过GEMINI；千问有小众模态优势，电子书和编程语言分析亮眼。

国外AI聊天助手中，gemini和chatgpt模态识别较全，传统办公文档、图片、音视频模态“五脏俱全”，其中GEMINI无论是视觉分析，还是音频分析，还是文本创作，都给人满意的反馈。

今天的分享就到这里了。若你对AI聊天助手有自己的看法或者新发现，欢迎在评论区分享，也欢迎大家入群讨论哦~

好文章，需要你的鼓励