阿里通义千问团队近日宣布推出全球首个原生语言世界模型Qwen-AgentWorld,该模型通过模拟七大领域智能体交互环境,在AgentWorldBench评测中展现出超越GPT-5.4、Claude Opus 4.8等主流模型的性能。这一突破标志着语言模型从单一文本生成向复杂环境交互的范式转变,为智能体训练提供了全新路径。
该模型覆盖文本类(MCP、搜索、终端、软件工程)与GUI类(网页、操作系统、安卓应用)七大交互场景,通过可渲染代码替代传统像素帧实现环境观测。这种设计使纯文本建模即可解析视觉信息,显著降低计算资源消耗的同时,支持跨领域知识迁移。例如,在终端和软件工程领域,模型展现出比GPT-5.4更强的状态预测能力,3970亿参数版本在评测中取得58.71分的综合成绩。
训练架构创新是该模型的核心优势。团队构建了CPT→SFT→RL三阶段训练体系:在继续预训练阶段注入环境知识,通过信息论损失掩码精准识别关键对话轮次;监督微调阶段激活思维链推理模式,强化下一状态预测能力;强化学习阶段采用混合奖励信号优化输出质量。这种端到端设计使环境建模成为原生训练目标,而非对通用大模型的后期适配。实验数据显示,350亿参数版本经三阶段训练后,综合得分提升8.66分,性能超越Claude Sonnet 4.6。
同步开源的AgentWorldBench评测基准包含七大领域真实环境执行数据,每条测试样本均配备ground-truth观测值。该基准不仅验证了模型在复杂交互场景中的优势,还揭示了世界建模的双重应用价值:作为解耦环境模拟器时,可为强化学习提供可控训练环境,其可控模拟RL方法在行为塑造效率上显著优于纯真实环境训练;作为统一智能体基座模型时,预热训练后的模型可直接迁移至多轮任务,无需额外微调即可保持性能。
目前,Qwen-AgentWorld模型及评测基准已在Hugging Face和ModelScope平台开放下载。这项研究为智能体训练提供了从环境建模到决策优化的完整解决方案,其开源特性将推动学术界和产业界在复杂交互场景中的探索进程。











