通义MAI-UI开源：通用 GUI 智能体基座登顶 SOTA！

2025-12-30 10:25

141

通义实验室带来了一个重磅开源项目——MAI-UI，它不仅是又一个模型，更是一个旨在解决真实世界复杂交互问题的全尺寸GUI智能体基座。它集成了多项前沿能力，并在多项评测中登顶SOTA，超越Gemini-2.5-Pro与UI-Tars-2等强力基线。

“帮我查最早从杭州西站到上海虹桥的二等座车次，在钉钉前沿技术研讨群同步到达时间，再把我和水番的会议改到明天同一时间，并在群里他说明因出差调整，问明天是否有空。”

当用户发出这样一条指令，MAI-UI能够：

1、打开12306 APP查看余票

2、找到对应钉群，在群内同步到达时间；

3、修改会议时间；

4、主动在群内同事水番，询问其时间是否有空。

这条看似简单的指令，实则对GUI智能体提出了四大真实挑战：跨应用操作、模糊语义理解、主动用户交互、多步骤流程协调。

核心定位：MAI-UI是通义实验室推出的全尺寸GUI智能体基座模型，旨在解决跨应用操作、模糊指令理解等真实挑战。

架构创新：首次将用户交互、MCP工具调用和端云协同三大能力，通过自主进化数据管线和大规模在线强化学习技术，原生集成于统一架构。

性能表现：在GUI视觉定位和手机任务执行能力评测中均达到SOTA（State-of-the-Art）水平，性能超越多个主流模型。

开源发布：项目已进行全栈开源，并发布了模型家族及高难度评测基准MobileWorld，推动社区共同发展。

问题场景：用户指令常存在信息缺失或歧义（例如“帮我订个附近的餐厅”），传统模型可能强行执行导致错误。

解决方案：MAI-UI具备“主动提问”能力，在判断指令模糊时，会主动向用户提问以澄清意图。

技术实现：将用户的回复纳入任务记忆，动态调整执行路径，确保每一步操作都与用户的真实意图对齐，避免了强制操作。

设计原则：面对复杂任务，MAI-UI采用“工具优先”策略，优先调用结构化API而非模拟冗长的UI操作。

效率对比：例如，完成“查询并导航到某地”的任务，可将数十步易错的点击操作，压缩为几次可靠的地图API调用。

核心价值：这种策略大幅提升了复杂任务的执行成功率和效率，是MAI-UI应对真实世界任务的通用设计原则。

架构设计：MAI-UI采用原生端云协同架构，让轻量模型与大模型各司其职。

端侧任务：轻量模型常驻设备端，执行日常任务、监控操作轨迹，并将敏感信息留在本地处理，保障隐私。

云端接力：当遇到非敏感的复杂任务时，安全地触发云端大模型进行接力计算。

综合优势：该机制优化了计算资源与响应速度的利用，同时在最大程度上保障了用户的数据隐私和安全。

训练挑战：真实的手机环境充满不可预测的干扰，如突然弹窗、App意外跳转、操作无响应等。

训练方法：MAI-UI通过在包含动态扰动注入的长轨迹环境中进行大规模在线强化学习来训练。

能力提升：这使得模型能够识别任务偏离、自主回退和纠正错误，在混乱的真实GUI环境中保持极强的任务连贯性与执行稳健性。

MAI-UI代码仓库:

MAI-UI项目主页:

MobileWorld评测基准:

MobileWorld主页:

好文章，需要你的鼓励