ITBear旗下自媒体矩阵:

阿里千问发布DeepPlanning基准测试:顶尖AI规划能力待提升 自主决策尚有距离

   时间:2026-01-31 04:12:58 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里千问近日宣布推出一项名为DeepPlanning的新一代AI规划基准测试,旨在评估人工智能在复杂现实场景中的全局规划能力。与传统推理任务不同,该测试要求AI系统在制定计划时必须统筹兼顾,而非仅关注局部最优解。

测试场景涵盖多维度现实需求:在旅行规划任务中,AI需精确安排每日行程至分钟级别,同时严格遵守预算上限和时间约束;购物优化场景则要求系统动态组合商品与优惠券,通过数学建模实现总支出最小化。这些"硬性条件"必须贯穿整个决策过程,而非仅在特定步骤满足。

实测数据显示,当前主流模型包括GPT-5.2、Claude 4.5、Gemini及Qwen 3,在长周期规划一致性方面仍存在明显局限。尽管这些模型在局部决策中表现优异,但当涉及多阶段联动优化时,仍会出现目标偏离或约束违反的情况,距离完全自主的智能决策体系尚有差距。

为推动行业技术进步,阿里千问已将DeepPlanning基准测试开源,开发者可通过Hugging Face平台(https://huggingface.co/datasets/Qwen/DeepPlanning)或魔搭社区(https://www.modelscope.cn/datasets/Qwen/DeepPlanning)获取完整数据集。该举措预计将为AI规划领域的研究提供标准化评估框架,加速通用智能体的研发进程。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version