滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

新加坡国立大学等推出GameWorld：用游戏精准丈量AI与现实的距离

时间：2026-04-18 05:05:09 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

新加坡国立大学与牛津大学联合研发的AI游戏测试平台GameWorld，通过34款浏览器游戏和170个任务构建起一套全新的评估体系。这项研究以技术报告形式提交至arXiv平台，编号为arXiv:2604.07429，为多模态大语言模型的能力边界提供了量化依据。与传统测试依赖问答模式不同，该平台将AI置于动态游戏场景中，要求其完成从画面解析到动作执行的全流程操作，成绩完全基于游戏内部数据自动生成。

研究团队设计的沙盒暂停机制成为关键创新点。当AI进行决策时，游戏画面自动冻结，确保不同推理速度的模型在相同条件下竞争。这种设计解耦了反应速度与决策质量的关系，使评分体系更具公平性。在补充测试的实时版本中，游戏保持运行状态，此时AI的思考速度直接转化为竞争优势，两种测试模式分别对应不同维度的能力评估。

测试覆盖13个主流AI模型，形成18种组合方案。谷歌Gemini-3-Flash-Preview在通用多模态组以41.9%的进度得分领先，字节跳动Seed-1.8则在电脑操控组取得39.8%的最佳成绩。但与人类玩家相比，AI表现仍存在显著差距：未经训练的研究生平均进度达64.1%，熟练玩家更达到82.6%。特别是在模拟经营类游戏中，多数模型成功率接近零值，暴露出长期规划能力的严重不足。

平台将游戏分为五大能力维度：基础操控类考验像素级动作精度，即时反应类要求毫秒级决策速度，空间导航类需要构建动态地图，符号推理类侧重多步策略规划，开放世界类则强调多目标协同管理。测试数据显示，AI在符号推理和即时反应任务中表现较好，但在基础时机把握和长期目标管理方面明显薄弱。例如在扫雷游戏中，部分模型因视觉判断失误频繁触雷；在马里奥关卡中，常因记忆衰减陷入重复跳跃循环。

研究团队通过10轮重复测试验证了平台稳定性，开源模型Qwen3-VL系列的标准差控制在1.1%以内。记忆量测试显示，通用模型携带2轮历史记录时成绩提升，而电脑操控模型因坐标数据干扰导致性能下降。指令遵循测试中，8.3%的无效动作率暴露出模型格式理解缺陷，2.7%的指令漂移现象则揭示出长序列交互的可靠性问题。

失败案例分析归纳出四类典型错误模式：32%的失误源于画面误判，28%来自动作执行偏差，21%是指令遵循异常，19%为长期记忆丢失。在Hextris俄罗斯方块变体中，某模型因持续误判方块颜色导致堆叠崩溃；在Wordle猜词游戏中，另一模型因忽略字母位置信息浪费多次尝试机会。这些细节为模型优化提供了明确方向。

该研究重新定义了AI能力评估标准，其核心价值在于建立可复现的基准体系。传统测试中，截图识别误差率高达15%，而GameWorld通过Javascript桥接代码直接读取游戏状态变量，将评分准确率提升至接近100%。在马里奥关卡中，系统同时记录分数、坐标、生命值等12项指标，形成多维评估矩阵。这种数据驱动的方法使不同模型的能力差异得以精确量化，为技术迭代提供了可靠参照。

针对公众关注的AI实际应用能力，研究团队设计了对照实验。当人类玩家被限制在相同操作步数内时，其策略灵活性优势显著体现：在神庙逃亡游戏中，新手玩家通过观察障碍物分布模式，能提前3-5秒规划路径；而AI模型因缺乏前瞻性判断，常在最后0.2秒才做出反应。这种差异在解谜类游戏中更为突出，人类玩家通过试错法快速收敛解空间，而AI模型常陷入局部最优陷阱。

开源模型在测试中展现出特殊价值。Qwen3-VL-235B-A22B虽在综合得分上落后商业模型10个百分点，但其决策路径可解释性达到78%，显著高于闭源模型的43%。在CubeField障碍穿越任务中，该模型通过构建三维空间坐标系实现精准避障，这种透明化的推理过程为学术研究提供了宝贵案例。研究团队已开放全部测试代码和游戏环境，推动建立统一的AI游戏能力评估标准。

更多>同类资讯

小米米家智能燃气热水器2上市：1级能效16L恒温，首发价1763元

04-30

苹果智能眼镜新动向：双摄加持手势操控拟2027年上市挑战Meta

04-30

吉利银河M7远航家上市：长续航强科技，助力品牌冲击200万销量

04-30

中国AI“双星”并耀：生态协作破局算力之困全球技术版图悄然生变

04-30

泡泡玛特跨界家电引关注知情人士：以新载体拓宽IP表达短期难增业绩

04-30

GPT Image 2文生图实力登顶：汉字生成超精准，场景复刻展卓越风采

04-30

特斯拉FSD接管反馈菜单升级新增“导航问题”选项精准优化体验

04-30

马斯克庭审披露：曾与佩奇因AI安全理念分歧决裂盼重归于好

04-30

罗永浩自曝攻击型人格：常被卷入骂战虽冤却乐在其中吵完身心舒畅

04-30

DeepSeek识图模式上线实测：多模态能力升级，鲸鱼“睁眼”新体验

04-30

通用汽车美国市场发力：400万辆2022款及更新车型将迎谷歌Gemini AI助手

04-30

小米荣耀一季度排名“变脸”：成本压力下，谁能破局重塑新位次？

04-30

林里牵手网易严选玩跨界，茶饮搭宠物粮，8万份福利共赴“五一”消费盛宴

04-30

OpenAI与亚马逊云科技深度携手，AI云服务格局重塑，GPT-5.4将至

04-30

科大讯飞星火X2-Flash模型发布：基于昇腾910B集群，长文本训练效率大幅提升

04-30

点击查看更多 +

全站最新

美股三大指数涨跌不一苹果概念、存储概念股大涨，中概指数跌0.64%

美股异动｜Meta盘后跌约6%，上调全年资本支出预期

美股异动｜谷歌盘后涨超6%，母公司Alphabet第一季度营收同比增长22%

ChatGPT问世后：全球互联网新增内容超三成现AI生成痕迹

微信生态里罗莱的“慢热”哲学：以社交为笔，绘就家纺巨头的长期增长图景

乐道L80开启预售！大五座SUV空间惊艳，智能配置与动力性能双在线

热门内容

本栏最新

吉利银河M7远航家上市：长续航强科技，助力品牌冲击200万销量

2026北京车展：小米YU7 GT预告来袭，Vision GT首秀，展现造车硬实力

AI应用商业化加速：从场景创新到价值重构驱动数字经济新增长

科大讯飞学习机怎么选？7款热门型号实测解析，帮你精准匹配孩子学习需求！

科大讯飞2025年报揭晓：营收271亿净利润8.39亿研发投入占比近两成

FBIF2026启幕：53000+观众共赴创新盛宴，解锁食品行业破局新路径

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.