阿里千问团队近日宣布推出一项名为DeepPlanning的新型AI基准测试,旨在评估智能体在复杂现实场景中的全局规划能力。该测试突破传统推理任务的局限,要求AI系统在制定计划时必须统筹兼顾多个约束条件,而非仅关注局部最优解。
以多日旅行规划为例,AI需在时间、预算等硬性限制下,精确安排每项活动的时间节点,误差需控制在分钟级别。在电商购物场景中,系统要能自动组合商品、叠加优惠券,并动态调整方案以达到满减条件,实现总价最低。这些约束条件需贯穿整个规划过程,而非仅在特定步骤满足要求。
基准测试结果显示,当前主流大模型在处理复杂规划任务时仍存在明显不足。包括GPT-5.2、Claude 4.5、Gemini和Qwen 3在内的顶尖模型,在全局优化和长周期一致性方面表现欠佳,距离实现完全自主决策仍有差距。测试数据表明,这些模型在处理需要多维度权衡的复杂场景时,往往难以保持计划的整体连贯性。
为推动该领域研究发展,阿里千问团队已将DeepPlanning基准测试完全开源。研究人员可通过Hugging Face平台(https://huggingface.co/datasets/Qwen/DeepPlanning)和魔搭社区(https://www.modelscope.cn/datasets/Qwen/DeepPlanning)获取完整数据集,包含多种复杂规划场景的测试用例及评估标准。这一举措将为AI规划能力的研究提供标准化评估框架,促进相关技术的迭代升级。








