ITBear旗下自媒体矩阵:

阿里千问发布DeepPlanning基准测试,顶尖AI模型规划能力尚存提升空间

   时间:2026-01-31 04:35:02 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里千问团队近日宣布推出一项名为DeepPlanning的新型AI基准测试,旨在评估智能体在复杂现实场景中的全局规划能力。该测试突破传统推理任务的局限,要求AI系统在制定计划时必须统筹兼顾多个约束条件,而非仅关注局部最优解。

以多日旅行规划为例,AI需在时间、预算等硬性限制下,精确安排每项活动的时间节点,误差需控制在分钟级别。在电商购物场景中,系统要能自动组合商品、叠加优惠券,并动态调整方案以达到满减条件,实现总价最低。这些约束条件需贯穿整个规划过程,而非仅在特定步骤满足要求。

基准测试结果显示,当前主流大模型在处理复杂规划任务时仍存在明显不足。包括GPT-5.2、Claude 4.5、Gemini和Qwen 3在内的顶尖模型,在全局优化和长周期一致性方面表现欠佳,距离实现完全自主决策仍有差距。测试数据表明,这些模型在处理需要多维度权衡的复杂场景时,往往难以保持计划的整体连贯性。

为推动该领域研究发展,阿里千问团队已将DeepPlanning基准测试完全开源。研究人员可通过Hugging Face平台(https://huggingface.co/datasets/Qwen/DeepPlanning)和魔搭社区(https://www.modelscope.cn/datasets/Qwen/DeepPlanning)获取完整数据集,包含多种复杂规划场景的测试用例及评估标准。这一举措将为AI规划能力的研究提供标准化评估框架,促进相关技术的迭代升级。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version