当“高颜值”撞上“高智商”,灵光与千问擦出了怎样的火花?


目录
- 前言
- 第一场:办公学习
- 第二场:日常识别
- 第三场:定位导航
- 第四场:应用构建
- 小结
11月18日,蚂蚁推出灵光app,正式加入了AI大战。
这边厢,灵光app以可视化回答、闪应用和多模态钩住用户的视线。那边厢,因品牌定位而更名的千问app(由“通义”更名为“千问”),带着Qwen的最强模型与功能新定位(一站式解决方案)与大众见面。
这俩也算是被摆在了显眼的擂台上对打。
对于用户而言,商业战略倒是其次,功能是否多样、是否实用、是否方便才是思量的重点。
所以,这俩到底哪个更戳用户的心巴呢?
下面它俩将会在办公学习、日常识别、内容创作、应用构建四方面进行对决,大家可坐好小板凳细细观看。
第一场:办公学习
灵光和千问都是直接在首页输入指令即可。比如常识扫盲和方案提供:

(左为灵光回复,右为千问回复)

(左为灵光回复,右为千问回复)
灵光就像写了一篇排版美观的文章,图、文、表结合,标题可简约可文艺,结尾还有名言引用,其中图不只是你预料之中的插图,还有知识、清单卡片,看着真是赏心悦目。
千问就是常见大模型看到的那种结构化回答,文、表结合,条理清晰,讲解深入,文末有时还附带其他用户的经验分享(图和视频)。
与灵光相比,千问尽管没有灵光的高颜值,但胜在回答够垂直、够精深。比如离心率重点讲解其规律与公式,送礼的礼品能详细到“低乳糖”“蒸煮型”等具体的产品侧重点。
所以,就查资料、想方案而言,若你只是需要快速理解含义或找大致方向、步骤,灵光会更好用,可视化让回答重点突出,你能一眼看到重中之重。相反,若你遇到公式数据类疑问,或者想看到更细化的方案,千问会更适合你。
第二场:日常识别
识图分析
输入模态方面,强调“全模态”的灵光却败给了千问。
灵光的输入模态只有3种——文字、语音和图片,而千问倒像是全模态,图片和常见类型文档都能上传,还能上传现场拍摄的视频、现场录制的音频,能现场通话。
单就识图而言,千问识万物更为精准,甚至连物品目前所在地址可能都能定位,但回答层次单一。若是识图解题,千问数理逻辑比灵光更强。
比如让它俩识别文物:

(左为灵光回复,右为千问回复)
灵光最多只识别到清代玉雕花插,更多注重宏观和艺术的讲解。
千问回答简单但一语中的,“佛手形玉摆件”“四川博物院”让我惊呼“666”。这确实是我在四川博物院拍的,文物名称同场上的标签如出一辙。
再比如让它俩解答这道排列组合题:

(排列组合原题)

(左为灵光回复,右为千问回复)
笑死了,我怀疑灵光是在演我,边做边自我怀疑,重来好几次,最后总算成功得出了一个错误答案。
千问倒是一如既往地稳,四步便得到了正确答案,一目了然。
定位导航
看到灵光“能给出交互地图”的介绍,我还以为是能像网页一样直接点开导航,结果原来不是。

(左为灵光回复,右为千问回复)
灵光可以定位,不过只是用于给出具有针对性的路线,让你看到从实际位置到目的地的具体耗时和贴合实际的攻略和路线方案,并没有导航系统,也不会提供买票链接。
千问不能定位,除非你输入具体位置,否则不能给出具体的耗时和路线,同样没有导航系统和买票链接。
没有接入地图系统的情况下,灵光能给出贴合实际位置的攻略和路线规划,也实属厉害了。
这一局,两者势均力敌。千问胜在识图分析,灵光胜在出行规划。
第三场:内容创作
生图
文生图方面,灵光和千问相差无几,都能在聊天界面直接生图。不过千问的聊天界面有还很多设置项,比如风格、尺寸选项,而灵光只能在文字中输入设定项。

图生图方面,灵光明显居于弱势,明明可以像千问用嘴p图,却偏偏理解能力差。比如下面的小狗图:

(左为原图,右为灵光图生图结果)
提示词:小狗右手拿起草莓,草莓只有一半了(上面的一半没了)。
灵光无法变成右手拿草莓,也始终让草莓去掉镜头面前的一半。
图生视频
灵光的这项功能也不如千问。
只能单图生视频,视频没有音效,只有bgm。这也就罢了,吃的动作都做不好是怎么回事?
(灵光生成结果)
虽然千问也有音效配不好的问题,但人家至少动作自然啊,也可首尾帧生成视频,尽管1天只有4次免费机会。
(千问生成结果)
这一局,毫无疑问千问获胜。
第四场:应用构建
灵光、千问构建应用的形式不一样。
灵光只需在主界面输入要求,就能产出可直接使用的小应用。不同于灵光,千问不能直接产出小应用,虽然它自身有两种构建应用的方法——主界面给出代码、构建智能体。
千问给出代码的方式就同其他大模型一样,需要下载本地、网页打开或后端环境运行。
千问创建智能体本质上是将领域和内容细分了,以聊天的形式娱乐或解决问题,并不能通过文字或语音回答之外的形式来执行任务。
这里我构建了非聊天形式的音乐创作助手应用:
(灵光生成结果)

(千问生成结果)
提示词:根据需求生成多样风格并可调整的音乐创作助手。
灵光的音乐创作助手是“麻雀虽小,五脏俱全”,流程可以跑通,功能按键都能使用,只是功能设计和生成的音乐比较简单。
千问是只能生成前端仿真界面,应用无法运行,流程跑不通。
如若想生成功能复杂的大应用,比如支付宝应用,两者都不适用。它俩要么直接婉拒,要么生成结果整个垮掉。

(上由灵光生成,下由千问生成)
或许,手机app的定位就是如此吧,不需要生成功能复杂的应用,能给日常增添乐趣、来点儿新意就足够了!
生成小应用这局,灵光胜出了。
小结
目前看来,灵光最大的优势就在于以下亮点:
1.颜值在线。以图(各类图:插图、数据图表、卡片、动态图等)文并茂的形式反馈给你一篇文章样式的答复,让你赏心悦目的同时一眼看到重中之重。
2.产出应用。让你一句话生成小应用,在手机上就能玩耍和使用,增添生活趣味和便捷度。
至于实用性,比如查专业问题、解答数理题、短视频创作,还是千问更戳大众心巴。
即便灵光在出行规划上的实用性强于千问,但别忘了,还有旅行专职顾问“飞猪问一问”“同程程心AI”,谁还会打开飞猪、同程购票时再打开灵光搜旅游攻略和路线呢?
并且,无论是输入还是输出模态,千问的模态类型都比灵光广。
1.输入模态:
灵光:文字、语音、图片。
千问:图片、文档、视频、语音、通话
2.输出模态:
灵光:文字、图、视频
千问:文字、图、视频、文件、语音播报
今天的分享就到这里了。若你在使用灵光和千问app的过程中有自己的感悟和体验,欢迎在评论区分享,我们一起交流,也欢迎大家入群讨论哦~

