阿里千问近日宣布推出一项名为DeepPlanning的新一代AI规划基准测试,旨在评估人工智能在复杂现实场景中的全局规划能力。与传统推理任务不同,该测试要求AI系统在制定计划时必须统筹兼顾,而非仅关注局部最优解。
测试场景涵盖多维度现实需求:在旅行规划任务中,AI需精确安排每日行程至分钟级别,同时严格遵守预算上限和时间约束;购物优化场景则要求系统动态组合商品与优惠券,通过数学建模实现总支出最小化。这些"硬性条件"必须贯穿整个决策过程,而非仅在特定步骤满足。
实测数据显示,当前主流模型包括GPT-5.2、Claude 4.5、Gemini及Qwen 3,在长周期规划一致性方面仍存在明显局限。尽管这些模型在局部决策中表现优异,但当涉及多阶段联动优化时,仍会出现目标偏离或约束违反的情况,距离完全自主的智能决策体系尚有差距。
为推动行业技术进步,阿里千问已将DeepPlanning基准测试开源,开发者可通过Hugging Face平台(https://huggingface.co/datasets/Qwen/DeepPlanning)或魔搭社区(https://www.modelscope.cn/datasets/Qwen/DeepPlanning)获取完整数据集。该举措预计将为AI规划领域的研究提供标准化评估框架,加速通用智能体的研发进程。







