在无数玩家心中,《我的世界》(Minecraft)不仅仅是一款游戏,它是一个充满无限可能的虚拟宇宙,是冒险与创造的摇篮。从夜幕下匆忙搭建的简陋木屋,到精心复刻的校园与古老阿房宫,再到深邃矿道中对钻石的无尽追寻,这片由方块构成的天地见证了无数玩家的梦想与努力。
然而,当人工智能(AI)涉足这个充满挑战与惊喜的世界时,一切都变得不同寻常。AI能否像人类一样,在这个没有固定目标、没有预设玩法的开放世界中,找到属于自己的生存之道,甚至挖掘到那闪耀的钻石?
起初,人们并未将AI视为《我的世界》中的佼佼者。毕竟,在围棋、Dota2等策略型游戏中,AI已经大放异彩,但这些游戏的规则和目标相对明确,AI只需计算出最优解即可。而《我的世界》则截然不同,它的地图随机生成,每次进入都是全新的挑战,玩家需要凭借直觉、经验和创造力去适应环境。
然而,2019年,Facebook推出了CraftAssist Bot,让AI能在游戏中执行人类指令,如建造房屋、驯服动物等。同年,CMU、微软、DeepMind等机构也联合发起了MineRL大赛,尝试将互联网视觉数据融入《我的世界》的技能学习中。这些尝试,标志着AI正式踏入这个充满未知与挑战的世界。
MineRL大赛的目标很简单,就是让AI在游戏里成功挖到钻石。但现实却给研究人员带来了沉重的打击:900多个顶尖团队倾尽全力,竟没有一个AI成功拿到钻石。这些AI智能体在探索过程中,出现了许多令人啼笑皆非的错误,如只知道砍树却不懂得合成斧头,或是一头栽进岩浆里,将角色活活烧死。
这些错误,恰恰揭示了AI在面对开放世界时的困境。它们不像人类那样拥有丰富的常识和直觉,而是必须从零开始,一步步推导出世界的运行规则。但这也正是《我的世界》的魅力所在:它考验的不仅是操作技巧,还有对环境的理解、对资源的管理和对长远目标的规划。
随着研究的深入,强化学习(Reinforcement Learning)逐渐成为AI在《我的世界》中取得突破的关键。强化学习让AI像真正的小白玩家一样,通过与环境不断互动来获得反馈。随着时间的推移,AI逐渐学会了更有效地探索地图、管理资源、打造装备和执行复杂任务。这种“适应”能力,让AI不再只会照本宣科,而是能根据环境做出灵活决策。
近年来,随着大语言模型(LLM)如GPT-4的出现,新的研究方向开始浮现。LLM能充当“游戏智囊团”,为AI在游戏世界中的行为提供更成熟的任务规划和技能顺序安排。这些研究让AI从完全的游戏小白变成了拥有丰富游戏经验的玩家,它们既能统筹所需技能,又能反思游戏环境带来的变化,从而一步步逼近最终目标。
如今,AI在《我的世界》中的表现已经取得了显著进步。腾讯AILab的“绝悟”在MineRL大赛中夺得冠军,证明了AI能够在这一开放世界游戏中取得优异成绩。而DeepMind的DreamerV3更是实现了近乎真正的自主探索,它没有看任何人类数据,完全靠自己摸索,仅用17天就完成了MineRL挑战,成为首个能“自力更生”挖到钻石的AI。
AI在《我的世界》中的征程远未结束。DeepMind的最新研究再次刷新了认知边界,他们让AI不仅能在游戏世界里生存下去,还能超越人类的操作水平。这一突破的关键在于基于模型的强化学习(MBRL)和Transformer世界模型(TWM)的结合。研究者通过一系列优化措施,提高了世界模型的学习效率和策略优化的效率,使AI能够在有限交互数据下高效学习,并掌握高效的生存之道。
在Craftax-classic环境的实验中,这款AI不仅规划、探索能力出众,还在多人评测对战中战胜了人类高手,成为首个超越人类表现的智能体。这一结果证明,RL AI不仅能自主学习,还能在高度复杂的环境中做出比人类更优的决策。
从最初连最基本的生存都难以维持,到如今能够自主规划行动、高效地挖掘钻石,AI在《我的世界》中取得的进步令人惊叹。它学到的不仅是“挖钻石”的小技巧,更是如何理解世界、制定策略、应对变化——这些真正的高层次智慧。或许有一天,AI真的能像人类一样,在这个无限广阔的像素世界里自由探索、创造,成为某个数字宇宙里的创世神。