滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里千问发布DeepPlanning基准测试，顶尖AI模型规划能力尚存提升空间

时间：2026-01-31 04:35:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

阿里千问团队近日宣布推出一项名为DeepPlanning的新型AI基准测试，旨在评估智能体在复杂现实场景中的全局规划能力。该测试突破传统推理任务的局限，要求AI系统在制定计划时必须统筹兼顾多个约束条件，而非仅关注局部最优解。

以多日旅行规划为例，AI需在时间、预算等硬性限制下，精确安排每项活动的时间节点，误差需控制在分钟级别。在电商购物场景中，系统要能自动组合商品、叠加优惠券，并动态调整方案以达到满减条件，实现总价最低。这些约束条件需贯穿整个规划过程，而非仅在特定步骤满足要求。

基准测试结果显示，当前主流大模型在处理复杂规划任务时仍存在明显不足。包括GPT-5.2、Claude 4.5、Gemini和Qwen 3在内的顶尖模型，在全局优化和长周期一致性方面表现欠佳，距离实现完全自主决策仍有差距。测试数据表明，这些模型在处理需要多维度权衡的复杂场景时，往往难以保持计划的整体连贯性。

为推动该领域研究发展，阿里千问团队已将DeepPlanning基准测试完全开源。研究人员可通过Hugging Face平台（https://huggingface.co/datasets/Qwen/DeepPlanning）和魔搭社区（https://www.modelscope.cn/datasets/Qwen/DeepPlanning）获取完整数据集，包含多种复杂规划场景的测试用例及评估标准。这一举措将为AI规划能力的研究提供标准化评估框架，促进相关技术的迭代升级。

更多>同类资讯

老外评了个“最该消失的手机设计”，看完我深深共情了

02-24

“邪修”AI芯片的Taalas，成色如何？

02-24

还说别人蒸馏？马斯克抨击Anthropic：大规模盗用训练数据

02-24

海外票选“2026最该消失手机趋势”，这些设计为何让用户直呼受不了？

02-24

Taalas“模型即芯片”引热议，AI芯片新势力能否打破英伟达垄断？

02-24

人形机器人加速“进化”：从实验室走向生活十万亿产业蓝海将启

02-24

轨道数据中心引科技巨头博弈：马斯克激进推进奥尔特曼泼冷水唱衰

02-24

2026春节后新机潮来袭！vivo、OPPO、荣耀、小米等品牌齐发重磅机型

荣耀Maigc V6，这款横向大折叠屏手机已经曝光，且官方确认将在3月1日MWC2026上正式发布。由于小米17Ultra已经2025年底发布，所以这一次小米的机型应该是小米17 Max，这是一款大屏影像性…

02-24

春晚助力机器人租赁“走红”，春节档订单爆满价格水涨船高

据上海证券报消息，继去年宇树科技的机器人登台表演后，今年又有4家机器人企业亮相央视舞台，再次将人形机器人热度推上高点。春晚舞台的持续“出圈”，也为过去一年兴起的机器人表演租赁市场再添一把火。有机器人租赁从…

02-24

寄快递怕被坑？8家主流物流实测比价+3个省钱妙招，轻松寄件不花冤枉钱

我以最常见的“从北京寄到上海”为例，模拟了两种新手常遇到的场景，对比了它们官方小程序/APP的公开报价（非活动价，数据为近期实测，仅供参考）：我的经验是，别直接跑快递点或打官方电话下单，那样拿到的基本都是…

02-24

红米Turbo5 Max价格回降，大电池高性能加持，米粉入手好时机来了

新机开卖后直接取得好的销量成绩，这种事放在以前，能说明这款手机竞争力很强，但现在却不一定了，之所以阿维会这样说，是因为这几年手机行业中出现了一个新套路，那就是新机发布后，会在定价的基础上，首销期额外降价，吸引…

02-24

石头科技再获清洁新专利，独特设计让低矮狭小空间清洁不再难

在家电行业不断创新的浪潮中，石头科技（688169）近日获得了一项引人注目的实用新型专利，名为“清洁设备以及清洁系统”，专利申请号为CN202520358404.1，授权日期为2026年2月24日。这一数字不…

02-24

春节后手机圈“盛宴”开启！八款新机蓄势待发，配置亮点抢先看

vivo X300s（Max）也是偏性能大屏路线。但在性能、电池、快充、耐用上，它会给到够用甚至超预期的体验，特别是续航和耐用设计。以前你只需要在两三款旗舰里纠结，现在光节后这一波，就横跨折叠、大屏影像…

02-24

AI财神引热议峨眉文旅联合百度智能云打造文旅“IP+Agent”新体验

在此背景下，峨眉文旅携手百度智能云，以“华夏第一正财神”赵公明为文化载体，结合百度智能云全栈AI能力，共同打造了一位具备智能交互能力的财神数字员工。客悦数字员工依托文心、DeepSeek等大模型技术构建服…

02-24

科技与豪华交融：2026款奥迪E5 Sportback智能车机深度体验

作为上汽奥迪AUDI品牌推出的首款量产车型，奥迪E5Sportback搭载了全新一代超感互动数智座舱，以高通骁龙8295车规级芯片为核心，配合AUDIOS车机系统，不仅深度整合国内主流数字生态，而且还着重优化…

02-24

点击查看更多 +

全站最新

春晚助力机器人租赁“走红”，春节档订单爆满价格水涨船高

寄快递怕被坑？8家主流物流实测比价+3个省钱妙招，轻松寄件不花冤枉钱

AI财神引热议峨眉文旅联合百度智能云打造文旅“IP+Agent”新体验

科技与豪华交融：2026款奥迪E5 Sportback智能车机深度体验

零跑D99年中登场，直击家庭出行痛点，25万起能否搅动MPV市场？

华为智界V9春季上市，增程无焦虑+旋转座椅，能否定义高端MPV新体验？

热门内容

本栏最新

春晚助力机器人租赁“走红”，春节档订单爆满价格水涨船高

寄快递怕被坑？8家主流物流实测比价+3个省钱妙招，轻松寄件不花冤枉钱

AI财神引热议峨眉文旅联合百度智能云打造文旅“IP+Agent”新体验

科技与豪华交融：2026款奥迪E5 Sportback智能车机深度体验

寄大件行李如何省钱？比价平台助力精准匹配，轻松避开运费“陷阱”！

春节“千问帮我”掀热潮：近2亿次下单超400万60岁以上老人享AI便利

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.