蚂蚁集团ICML 2026 Spotlight：MiniAppBench评测大模型交互应用新能力

时间：2026-06-11 02:14:59 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当用户向人工智能助手请求一个饮食记录工具时，传统交互模式下可能只会收到一段文字建议，而如今的技术演进已使AI能够直接生成具备交互功能的完整应用。这种从文本输出到可操作应用的转变，标志着人机交互进入全新阶段。蚂蚁集团灵光App闪应用团队的研究者指出，当前大语言模型在生成真正符合现实逻辑的交互式HTML应用方面仍存在显著短板，为此他们构建了首个系统性评测基准MiniAppBench。

该研究团队开发的MiniAppBench基准测试包含500个精心设计的任务，覆盖科学、游戏、工具、人文、可视化和生活六大领域。这些任务均源自真实场景中超过1000万条交互需求，经过四阶段筛选流程确保每个需求都隐含现实世界原则且需要定制化交互实现。例如科学领域的任务要求模型正确实现物理定律，工具类任务则需处理边界条件和异常输入。

配套的自动化评估系统MiniAppeval采用创新的三维度评测框架，通过LLM驱动的智能代理模拟人类测试员操作。该系统不仅检查应用是否满足用户意图，还会验证静态代码结构和动态交互逻辑，包括多步骤操作后的状态一致性、因果关系正确性及边界条件处理。实验数据显示，这种评估方式与人类专家判断的一致性高达92.4%，显著优于传统截图比对或固定脚本测试方法。

在对全球16个顶尖大模型的测试中，结果显示所有模型的平均通过率仅为17.05%。表现最佳的GPT-5.2模型通过率也未超过45.46%，在涉及复杂物理定律的科学领域和需要鲁棒逻辑处理的工具领域，多数模型通过率跌至个位数。开源模型与闭源模型存在明显差距，最佳开源模型GLM-4.7的通过率仅为18.31%，不足闭源领先模型的一半。

研究团队特别指出，当前模型在将世界知识转化为可执行代码方面存在系统性缺陷。例如在"水蒸发演示"任务中，多数模型生成的粒子运动不符合物理定律；在饮食记录工具任务中，常见错误包括未正确实现"一周七天、每日三餐"的基本约束。这些缺陷暴露出模型在理解隐含需求、处理复杂交互逻辑和工程实现能力方面的不足。

该基准测试的评估方法论具有重要创新价值。通过结构化评测参考指导智能代理进行探索式测试，解决了开放式生成任务缺乏标准答案的难题。消融实验证明，代码审查、动态操作和评测参考三个组件缺一不可，仅依赖单一评估方式会导致精度大幅下降。这种评估框架不仅适用于交互式应用生成，也为其他开放式代码生成场景提供了方法论参考。

研究团队已将MiniAppBench基准测试、评估系统和500个任务数据集完全开源。开发者只需配置OpenAI格式的API密钥，即可在5分钟内完成本地环境搭建并启动评测。配套提供的端到端脚手架包含详细文档和示例代码，支持快速集成到现有模型训练流程中，为推动交互式应用生成技术的发展提供了重要基础设施。

荣耀Robot Phone背部配备一块尺寸较大的矩形影像模组，右侧为副摄和闪光灯，左侧则为搭载4DoF机械臂云台的主摄。需要使用云台相机时，用户只需滑动镜头保护盖，机械臂便会自动展开，整个过程仅需0.8…

日本日经xTECH网站7月23日发布了一段日本技术人员拆解中国宇树科技G1人形机器人的视频，尝试探究其内部结构与技术水平。在这段视频中，日方技术人员和媒体记者边拆边感叹中国人形机器人的技术水平之高，并最终得出…

更关键的是，现代扫地机已经发展到连倒垃圾都不用你操心了——自动集尘、自动洗拖布、自动上下水，它能把一整套清洁流程全部闭环。这个环节是很多新机型的标配，但前几年的扫地机是没有的，那时候你得自己手洗拖布，洗完了再…

第二十八届中国机器人及人工智能大赛组委会秘书长谭庆吉表示，大赛始终坚持“科创赋能实体、竞赛服务发展”的核心导向，强化人工智能技术与实体经济的深度融合，引导广大青年学子跳出理论桎梏，聚焦产业真实场景、攻坚技术…

目前，卡诺普累计客户超500家，产品出口至40多个国家和地区，以2024年营收数据计算，在中国焊接机器人制造商中排名第一。 2026年APEC高官会主席陈旭表示，此次APEC数字周活动选择在成都举办，是对这座…

在览山科技的战略视野中，2026年AI落地的核心特征在于“执行闭环”的构建与“深度协同”的实现。未来，览山科技将继续以数智化为引擎，助力更多政企机构与高校跨越技术鸿沟，在“智能体经济时代”的浪潮中抢占先机，…

先给结论：我们的最终方案是“Pixso + Figma + LynxCode”的组合——Pixso用于日常AI快速出稿和团队协同，Figma用于需要极致视觉品质的项目，LynxCode用于快速生成内部工具和…

此外，该企业还提及“智慧”和“智能”两个关键词，表明其在监控系统中尝试融入智能分析与自动化能力。全国AI运维服务在此类场景中的应用，需要具备对不同厂商、不同类型监控设备的兼容能力，并能够通过统一平台进行数据整…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.