ITBear旗下自媒体矩阵:

新加坡国立大学等推出GameWorld:用游戏精准丈量AI与现实的距离

   时间:2026-04-18 05:05:09 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

新加坡国立大学与牛津大学联合研发的AI游戏测试平台GameWorld,通过34款浏览器游戏和170个任务构建起一套全新的评估体系。这项研究以技术报告形式提交至arXiv平台,编号为arXiv:2604.07429,为多模态大语言模型的能力边界提供了量化依据。与传统测试依赖问答模式不同,该平台将AI置于动态游戏场景中,要求其完成从画面解析到动作执行的全流程操作,成绩完全基于游戏内部数据自动生成。

研究团队设计的沙盒暂停机制成为关键创新点。当AI进行决策时,游戏画面自动冻结,确保不同推理速度的模型在相同条件下竞争。这种设计解耦了反应速度与决策质量的关系,使评分体系更具公平性。在补充测试的实时版本中,游戏保持运行状态,此时AI的思考速度直接转化为竞争优势,两种测试模式分别对应不同维度的能力评估。

测试覆盖13个主流AI模型,形成18种组合方案。谷歌Gemini-3-Flash-Preview在通用多模态组以41.9%的进度得分领先,字节跳动Seed-1.8则在电脑操控组取得39.8%的最佳成绩。但与人类玩家相比,AI表现仍存在显著差距:未经训练的研究生平均进度达64.1%,熟练玩家更达到82.6%。特别是在模拟经营类游戏中,多数模型成功率接近零值,暴露出长期规划能力的严重不足。

平台将游戏分为五大能力维度:基础操控类考验像素级动作精度,即时反应类要求毫秒级决策速度,空间导航类需要构建动态地图,符号推理类侧重多步策略规划,开放世界类则强调多目标协同管理。测试数据显示,AI在符号推理和即时反应任务中表现较好,但在基础时机把握和长期目标管理方面明显薄弱。例如在扫雷游戏中,部分模型因视觉判断失误频繁触雷;在马里奥关卡中,常因记忆衰减陷入重复跳跃循环。

研究团队通过10轮重复测试验证了平台稳定性,开源模型Qwen3-VL系列的标准差控制在1.1%以内。记忆量测试显示,通用模型携带2轮历史记录时成绩提升,而电脑操控模型因坐标数据干扰导致性能下降。指令遵循测试中,8.3%的无效动作率暴露出模型格式理解缺陷,2.7%的指令漂移现象则揭示出长序列交互的可靠性问题。

失败案例分析归纳出四类典型错误模式:32%的失误源于画面误判,28%来自动作执行偏差,21%是指令遵循异常,19%为长期记忆丢失。在Hextris俄罗斯方块变体中,某模型因持续误判方块颜色导致堆叠崩溃;在Wordle猜词游戏中,另一模型因忽略字母位置信息浪费多次尝试机会。这些细节为模型优化提供了明确方向。

该研究重新定义了AI能力评估标准,其核心价值在于建立可复现的基准体系。传统测试中,截图识别误差率高达15%,而GameWorld通过Javascript桥接代码直接读取游戏状态变量,将评分准确率提升至接近100%。在马里奥关卡中,系统同时记录分数、坐标、生命值等12项指标,形成多维评估矩阵。这种数据驱动的方法使不同模型的能力差异得以精确量化,为技术迭代提供了可靠参照。

针对公众关注的AI实际应用能力,研究团队设计了对照实验。当人类玩家被限制在相同操作步数内时,其策略灵活性优势显著体现:在神庙逃亡游戏中,新手玩家通过观察障碍物分布模式,能提前3-5秒规划路径;而AI模型因缺乏前瞻性判断,常在最后0.2秒才做出反应。这种差异在解谜类游戏中更为突出,人类玩家通过试错法快速收敛解空间,而AI模型常陷入局部最优陷阱。

开源模型在测试中展现出特殊价值。Qwen3-VL-235B-A22B虽在综合得分上落后商业模型10个百分点,但其决策路径可解释性达到78%,显著高于闭源模型的43%。在CubeField障碍穿越任务中,该模型通过构建三维空间坐标系实现精准避障,这种透明化的推理过程为学术研究提供了宝贵案例。研究团队已开放全部测试代码和游戏环境,推动建立统一的AI游戏能力评估标准。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version