通义实验室多模态交互团队近日正式对外发布并开源了一款名为MAI-UI的通用GUI智能体基座模型。这款模型的核心能力在于能够精准理解各类屏幕界面内容,并依据指令执行相应操作,从而完成跨应用、多步骤的复杂任务。例如,在出行场景中,它可以快速查询车票信息;在社交场景里,能将重要信息同步至通讯群组;在办公场景中,还可灵活调整会议安排等。
MAI-UI在设计上具备诸多创新特性。当用户给出的指令不够明确时,该模型不会盲目执行,而是会主动向用户提问,进一步澄清需求,确保任务执行的准确性。它还支持调用结构化工具,像地图搜索、路线规划API等,以此来替代繁琐的界面点击操作。这种设计不仅提高了任务执行的成功率,还显著提升了整体效率。
为了满足不同用户和场景的需求,MAI-UI模型家族推出了多种参数规模的版本,包括2B、8B等。目前,2B与8B这两个版本的模型已经对外开源,开发者可以根据自身需求进行选择和使用。
从性能表现来看,MAI-UI在多个GUI理解与任务执行基准测试中成绩斐然。在ScreenSpot-Pro、AndroidWorld等权威测试中,该模型均取得了当前领先的成绩,这充分证明了其在界面交互领域的强大实力。而且,MAI-UI的适用范围广泛,无论是手机还是电脑等不同操作系统的界面交互场景,它都能轻松应对。











