在人工智能领域,如何评估大型语言模型是否具备人类般的长期规划与决策能力,一直是科研人员关注的焦点。纽卡斯尔大学与奥克兰大学联合研发的TowerMind平台,通过塔防游戏这一独特场景,为这一难题提供了创新性的解决方案。该平台不仅硬件需求极低,仅需0.15GB存储空间即可运行,更通过多样化的信息输入模式,全面考察AI的战略思维水平。
研究团队选择塔防游戏作为测试载体,源于其天然的策略复杂性。玩家需在资源有限的情况下,预判敌人进攻路线,合理布局防御塔,同时根据战场变化实时调整战术。这种需要兼顾宏观规划与微观操作的模式,与人类制定旅行计划等现实场景高度相似。传统测试方法要么过于简单,无法反映真实能力;要么依赖超级计算机,限制了应用范围。TowerMind的出现,恰好填补了这一空白。
该平台的设计充满巧思。游戏地图为6×6的正方形区域,设有三种防御塔:弓箭塔擅长单体攻击,魔法塔可造成范围伤害,骑士塔则能召唤可操控的部队。英雄角色的加入,进一步提升了策略深度——其范围攻击虽强大,但会消耗自身生命值,迫使玩家权衡利弊。敌人种类多达15种,从高血量兽人到可冻结防御塔的巫师,每种都需要特定应对策略。资源系统同样经过精心设计,金币随机掉落且需主动收集,"友军误伤补偿"机制则增加了经济管理的复杂性。
TowerMind的独特之处,在于为AI提供了三种信息获取方式。视觉模式下,AI接收512×512像素的游戏截图,需自行识别防御塔位置、敌人类型等关键信息;文字模式通过JSON格式文本,详细描述地图边界、金币数量、单位状态等所有要素;结构化数据模式则将游戏状态转化为759个数字的一维数组,便于数值计算。这种设计使研究者能够对比AI在不同信息处理方式下的表现,深入了解其优势与局限。
行动空间的设计同样值得关注。每个行动由连续坐标(范围-3.0至3.0)与离散动作类型(共12种)组成,涵盖建造、升级、出售防御塔,控制英雄移动与释放技能等操作。动作有效性验证机制的引入,确保了测试的严谨性——无效行动(如在已有防御塔的位置重复建造)会被系统忽略。这一设计不仅提升了游戏真实性,还为评估AI的"不切实际想法"频率提供了量化指标。
为全面评估AI能力,研究团队设计了五个难度递增的关卡。关卡1仅有一条进攻路线与4个防御点,而关卡5则增加至四条路线与13个防御点。敌人组合的复杂度与资源稀缺度也随关卡提升。例如,关卡2虽敌人类型较少,但初始金币仅120枚,且防御塔无法回售,迫使玩家更加谨慎规划。这种渐进式设计,使研究者能够精准定位不同AI模型的能力边界。
在评估指标方面,研究团队采用了得分与有效动作率双重标准。得分直接反映AI完成任务的能力,基于玩家基地生命值计算(每被突破一次扣1分,范围-20至0);有效动作率则衡量AI决策的合理性,即有效行动占总行动的比例。为建立基准,五名有塔防游戏经验的人类专家在经过13小时训练后参与测试,其表现为AI设定了现实的目标标准。所有测试结果均通过归一化处理,使不同关卡与指标间的结果具有可比性。
参与测试的包括三个商业模型(GPT-4.1、Gemini-2.5-Pro、Claude 3.7 Sonnet)与四个开源模型(两个版本的Llama 3.2与Qwen 2.5-VL)。结果显示,即使表现最佳的Claude 3.7 Sonnet,在纯文字模式下的得分也仅为人类专家的38%;GPT-4.1在图文结合模式下表现最优,得分42%,但仍不足人类水平的一半。视觉信息的加入普遍提升了模型表现(除Llama 3.2系列外),说明多模态信息有助于AI理解复杂环境。然而,开源模型在有效动作率上差异显著,小型模型如Qwen 2.5-VL 7B的表现甚至接近随机选择。
深入分析AI的游戏轨迹,研究团队发现了三个根本性问题。首先,AI缺乏策略验证能力,常在无法攻击到敌人的位置建造防御塔,尽管游戏信息足以支持空间推理。其次,AI无法进行多目标优化,从未出现如派遣英雄收集金币同时攻击敌人的"一举多得"行为。最后,AI对行动空间理解不充分,常在金币充足时忘记升级防御塔,或向空旷区域派遣骑士。这些问题反映了当前AI在抽象推理与情境理解方面的局限。
视觉信息对AI的影响呈现分化现象。多数模型在加入图像后表现提升,如GPT-4.1的得分提高27%,主要得益于对单位位置关系的更准确判断。但Llama 3.2系列表现下降,尤其是90B版本在视觉模式下的得分从0.21降至0.07,显示其尚无法有效处理复杂动态视觉场景。有效动作率的变化也值得关注:多数模型在视觉模式下的该指标略有下降,说明图像处理增加了认知负担,但关键决策的准确性有所提升。
研究还发现,AI在"知道规则"与"有效应用"之间存在显著差距。尽管多数模型能维持较高有效动作率(说明理解游戏规则),但高得分者寥寥,表明AI虽能避免明显错误,却难以制定有效策略。这种现象类似于熟读驾驶手册却无法熟练驾驶的人,凸显了静态知识测试的局限性。TowerMind的动态交互环境,为评估AI的实际应用能力提供了更可靠的依据。
为验证平台有效性,研究团队还测试了Ape-X DQN与PPO两种经典强化学习算法。尽管经过1亿步训练(相当于数千小时游戏时间),其表现仍远低于人类专家,在复杂关卡中尤为明显。这一结果从侧面证明了TowerMind的挑战性——其策略空间复杂,需要高级推理能力而非单纯模式识别。有趣的是,强化学习算法与大型语言模型呈现互补优劣:前者决策合理性高但策略僵化,后者虽有不合理想法却更具创新潜力。
TowerMind的另一独特设计,是测试AI识别与处理误导信息的能力。游戏中的"诱饵"防御塔位置(远离敌人路线)便是典型例子。当前AI模型常被此类选项吸引,无法预测决策后果,显示其在信息筛选与后果推演方面的不足。这一局限性在医疗诊断、投资决策等现实场景中可能带来严重风险,提示未来AI系统需集成更强的验证机制。
目前,TowerMind平台已开源,供全球研究者使用。这一工具不仅有助于改进现有AI系统,更通过清晰标识技术短板,为AI在策略思维领域的发展指明了方向。从旅行规划到资源管理,人类在复杂决策中的优势,仍待AI通过持续创新来追赶。












