ITBear旗下自媒体矩阵:

中科大等团队突破:AI智能体在虚拟世界中实现经验驱动的自我进化

   时间:2026-03-23 18:54:14 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,一项突破性研究正引发广泛关注。由中国多所高校及科研机构联合开发的"Steve-Evolving"智能体系统,成功在开放世界游戏《我的世界》中实现了从经验积累到智慧演化的完整闭环。这项发表于学术平台的研究成果,标志着AI系统首次具备类似人类工匠的持续学习能力。

传统AI智能体在处理复杂任务时,往往表现出"一次性记忆"的缺陷。以《我的世界》为例,玩家需要完成资源采集、工具制作、建筑建造等系列操作,现有AI系统每次都要从零开始规划,无法像人类玩家那样通过失败积累经验。研究团队通过构建三维诊断体系,让智能体能够像资深工匠记录工作日志般,详细记录每次行动的完整轨迹。

该系统的核心创新在于建立三级知识演化机制。在经验记录阶段,智能体每次行动都会生成包含初始状态、执行动作、诊断结果和最终状态的四维数据包。系统通过13类状态检测和11种失败归因模型,能够精准识别"工具缺失""路径阻塞"等具体问题,而非简单标记成功或失败。这种诊断精度达到毫米级,就像木工师傅能准确指出学徒锯木时的角度偏差。

知识提炼环节采用独特的双轨蒸馏技术。成功经验被转化为可复用的技能模块,每个模块包含操作序列、前置条件和验证标准。例如制作铁镐的完整流程会被抽象为包含"收集铁矿""熔炼铁锭""组合工具"等子模块的技能树。失败经验则生成防护栏规则,当智能体多次在熔岩区受伤后,系统会自动添加"低血量时远离高温区域"的约束条件。

在决策执行阶段,系统通过组合式回忆机制调用相关知识库。面对新任务时,智能体会同时检索成功案例和失败教训,生成包含技能模块和安全约束的行动方案。更关键的是诊断触发的局部重规划能力,当执行受阻时,系统会基于实时诊断调整策略,而非机械重复错误操作。这种动态调整机制使智能体在钻石工具制作任务中的成功率从3%提升至18%。

实验数据显示,在包含70个任务的测试集中,采用Qwen3.5-plus模型的Steve-Evolving系统取得52.52%的综合完成率,较传统方法提升10个百分点。随着经验积累,系统性能呈现指数级增长,后期任务完成率是初期阶段的6倍。组件分析表明,防护栏规则和知识注入机制对系统性能贡献率分别达到37%和29%,证明从失败中学习的重要性。

这项研究的技术架构具有显著优势。非参数化自进化框架使系统无需调整模型参数,通过外部知识库更新实现能力提升,有效避免了灾难性遗忘问题。可解释的知识表示方法让每个决策都有迹可循,为医疗、制造等关键领域的应用提供了安全保障。双轨知识蒸馏机制则模拟了人类专家的认知模式,既掌握成功方法又规避常见错误。

目前研究团队正在探索该技术的现实应用场景。在工业机器人领域,系统可通过记录操作日志自动优化生产流程;在教育领域,智能导师系统能根据学生表现动态调整教学策略;在自动驾驶领域,车辆可积累特殊路况处理经验提升安全性。研究负责人表示,下一步将开发多智能体协作机制,让不同AI系统能够共享经验数据,实现群体智慧演化。

这项突破为通用人工智能发展提供了新范式。传统AI训练依赖海量标注数据,而Steve-Evolving系统通过构建经验-知识-行动的正向循环,开创了自主进化新路径。其知识管理系统支持百万级经验条目的高效检索,为开发真正具有学习能力的AI奠定了技术基础。学术界认为,这种模拟人类专业成长机制的设计,可能成为下一代AI系统的核心架构。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version