滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

德州农工大学研究揭秘：如何让AI攻克《精灵宝可梦》早期关卡难题

时间：2026-04-23 22:55:42 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

让人工智能学会玩经典游戏《精灵宝可梦·红版》的最初几个关卡，其难度远超多数人的想象。德州农工大学数据科学研究院与计算机科学系的研究团队，针对这一挑战开发了名为PokeRL的专用系统，并发布了相关研究成果。这项研究不仅揭示了AI在复杂游戏环境中的学习困境，更提出了一套系统化的解决方案。

研究团队将游戏初期任务分解为三个阶段：从主角房间走出、探索彩叶镇并找到高草丛、赢得与对手小茂的首场对战。这些看似简单的操作，对AI而言却充满挑战。游戏设计中的"奖励稀疏"特性尤为突出——关键事件之间可能间隔数千次操作，导致AI难以判断行为是否有效。屏幕显示信息的局限性也加剧了难度，AI无法直接获取角色血量、背包物品等关键数据，只能通过像素画面进行推断。

针对这些挑战，PokeRL系统构建了多层次解决方案。在感知层面，AI接收由四帧连续画面与"已探索遮罩"叠加形成的8通道输入，其中遮罩会标记已访问区域，帮助AI建立空间记忆。实验数据显示，使用遮罩后AI的地图覆盖率提升242%，重复访问次数减少35%。行动空间被限制为7个基本按键，排除可能导致卡顿的菜单键，防止AI陷入无效操作循环。

奖励机制的设计堪称核心突破。研究团队建立了三级奖励体系：基础移动奖励（每步0.2-1分）、地图探索奖励（切换地图得10分）、关键事件奖励（抓获宝可梦得50分）。为防止AI投机取巧，系统对原地不动、重复按键等行为实施温和惩罚（-0.02至-0.2分）。这种平衡设计使AI既保持探索动力，又避免过度保守。测试表明，优化后的奖励机制使AI行动多样性提升50%，有效摆脱了"按键狂魔"的困境。

防循环机制是保障训练效率的关键创新。系统通过位置计数器、行动模式检测和轨迹追踪三重防护，精准识别并打断无效循环。当AI在20步内重复"左右左右"等模式时，立即扣除奖励并鼓励策略变更。数据显示，该机制将训练中的循环行为从41.2%降至4.7%，使AI能持续推进游戏进程。

课程式训练结构将完整任务拆解为渐进式目标。第一阶段专注基础移动训练，使65%的AI能在15万步内走出房间；第二阶段强化地图探索能力，60%的AI经过50万步训练可到达高草丛；第三阶段聚焦战斗策略，最终实现50%的对战胜率。这种分阶段设计不仅提升训练效率，更便于定位问题环节——当AI在第三阶段受阻时，研究人员可明确判断是战斗策略而非基础移动存在缺陷。

尽管PokeRL系统取得了显著进展，但其局限性同样明显。当前实现依赖游戏内存读取模块获取隐藏信息，且奖励函数需大量人工设计，这限制了系统的通用性。训练过程对超参数敏感，更换参数可能导致性能大幅波动。系统尚未处理游戏中的文字对话场景，部分环节仍需人工干预。

研究团队正探索多项改进方向：整合好奇心驱动机制增强自主探索能力，尝试逆强化学习减少人工奖励设计，研究语言模型在战斗决策中的应用潜力。他们计划将PokeRL打造为标准化开源平台，为AI复杂任务学习提供统一测试基准。这项研究证明，在AI应对现实世界复杂任务时，深入理解具体场景特性并设计针对性解决方案，往往比单纯追求模型规模更为有效。

更多>同类资讯

AI评测藏“格式陷阱”：BERT法官如何让聪明模型不被冤枉零分？

04-23

香港理工大学新突破：3D重建AI借多视角“自我纠错”提升精度

04-23

地平线推出整车智能全栈方案，舱驾融合或开启智能汽车新篇章

04-23

AI浪潮下短剧行业变革：霸道总裁演员转行回乡务农求生

04-23

荣耀机器人夺冠背后：战略布局与技术积淀共筑AI终端新未来

04-23

荣耀机器人“闪电”夺冠：战略深耕与技术积淀下的必然突破

04-23

蓝思科技入局普渡机器人：资本绑定与技术输出共筑机器人智造新平台

04-23

华为乾崑技术大会：10项车载核心技术发布，WEWA 2.0架构等多项创新引领未来

04-23

全新BMW 7系：以光影声韵交织，重塑旗舰豪华的沉浸式体验新境界

04-23

特斯拉第三代人形机器人年中亮相在即，2026年投产并明年投用外部场景

04-23

OpenAI意外“剧透”未来：GPT-5.5等新模型浮出水面，AI竞争再升级

04-23

FAIR plus 2026深圳机器人展启幕 2025年产业总产值突破2400亿创新高

本届展会汇聚500余家机器人全产业链上下游企业，集中展示工业机器人、人形机器人、服务机器人、具身智能及核心零部件等最新产业化成果，展会现场同步发布《深圳市机器人产业发展白皮书（2025年）》。本届展会汇聚50…

04-23

OpenAI算力扩张加速：已锁定8GW资源，2030年目标直指30GW

IT之家 4 月 23 日消息，OpenAI 官方当地时间昨日宣布，这家人工智能企业当前已锁定总功率超 8GW 的算力资源，离 2025年初设立的 10GW 目标已经不远，而到 2030 年则将达到 30G…

04-23

未来移动通信论坛发布多项成果，为6G发展铺就多维技术新路径

6G前沿技术丛书、“6G前沿技术与产业生态”报告、6G技术系列白皮书及数据集在内的未来移动通信论坛多项成果发布。丛书编委主任、中国移动研究院首席科学家易芝玲在丛书发布仪式上表示，从6G网络架构、6G通信能…

04-23

庆阳“东数西算”新篇：绿电赋能算力跃升数字引擎驱动未来

近日，由国务院国资委主办的“走进新国企聚势启新程”媒体行活动走进甘肃庆阳，来自全国十余家主流媒体的记者近距离了解这座黄土塬上的“算力之城”。中国移动甘肃公司副总经理马世科说，“十四五”时期，该公司在庆阳…

04-23

点击查看更多 +

全站最新

三一重工(06031.HK)获摩根大通增持21.9万股

樾系标杆落地！香山樾交付，彰显越秀在京高端人居打造硬实力

海尔智家(06690.HK)获Pzena Investment Management, LLC增持180.92万股

康臣药业（01681.HK）投资者交流日：稳增长、高分红双轮驱动获青睐

华为乾崑智驾里程突破100亿公里，迟林春称10月有望超特斯拉登顶全球

当乳业进入"科技时代"，飞鹤以"原料自研、鲜活标准、全龄布局"给出答案

热门内容

本栏最新

吉利银河M9黑金智曜版焕新登场豪华智能驾控升级引领大六座SUV新风潮

短视频运营：厘清“获客”与“涨粉”逻辑，精准发力收获真客户

2026北京车展：荣威家越07概念车首发聚焦AI时代家庭出行新方案

2026梅赛德斯 - 奔驰品牌日：全新纯电GLC SUV亮相，新一代S级中国首秀

2026北京车展荣威展台新亮点家越07概念车大5座SUV定制AI出行方案

第57次报告发布：2025年我国互联网向“新”向“好” 成果斐然筑牢发展基石

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.