ITBear旗下自媒体矩阵：

滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里千问发布DeepPlanning基准测试：顶尖AI规划能力待提升自主决策尚有距离

时间：2026-01-31 04:12:58 来源：ITBEAR编辑：快讯 IP：北京 发表评论无障碍通道

阿里千问近日宣布推出一项名为DeepPlanning的新一代AI规划基准测试，旨在评估人工智能在复杂现实场景中的全局规划能力。与传统推理任务不同，该测试要求AI系统在制定计划时必须统筹兼顾，而非仅关注局部最优解。

测试场景涵盖多维度现实需求：在旅行规划任务中，AI需精确安排每日行程至分钟级别，同时严格遵守预算上限和时间约束；购物优化场景则要求系统动态组合商品与优惠券，通过数学建模实现总支出最小化。这些"硬性条件"必须贯穿整个决策过程，而非仅在特定步骤满足。

实测数据显示，当前主流模型包括GPT-5.2、Claude 4.5、Gemini及Qwen 3，在长周期规划一致性方面仍存在明显局限。尽管这些模型在局部决策中表现优异，但当涉及多阶段联动优化时，仍会出现目标偏离或约束违反的情况，距离完全自主的智能决策体系尚有差距。

为推动行业技术进步，阿里千问已将DeepPlanning基准测试开源，开发者可通过Hugging Face平台（https://huggingface.co/datasets/Qwen/DeepPlanning）或魔搭社区（https://www.modelscope.cn/datasets/Qwen/DeepPlanning）获取完整数据集。该举措预计将为AI规划领域的研究提供标准化评估框架，加速通用智能体的研发进程。

更多>同类资讯

阿里推出AI原生平台“悟空”：内置钉钉，助力2000万企业开启智能办公新篇章

据介绍，悟空支持连接用户在企业中的钉钉账号、安全访问权限和应用系统。未来，淘宝、天猫、1688、支付宝、阿里云等阿里系B端商业能力的Skill将逐步接入该平台，以辅助商家进行背景调查、全网比价及自动化经营等…

03-17

阿里“悟空”来袭：AI原生工作平台登场，助力企业开启高效新征程

悟空是一款独立应用，即日起开启邀测，也将直接内置到超2000万企业组织的钉钉之中。悟空全面支持连接用户在企业中的钉钉账号、安全访问权限和应用系统。悟空同步发布了OPT（One Person Team，一人…

03-17

马斯克放话：SpaceX将凭技术融合优势，成就远超所有人工智能公司总和

快科技3月17日消息，近日，特斯拉CEO埃隆·马斯克针对“谷歌DeepMind注定会赢得人工智能竞赛”的说法作出回应。他表示暂时认同这一观点，但随即放出狠话：“在未来几年内，SpaceX的成就将远远超过所有…

03-17

英伟达阿里竞逐Token赛道：从算力资产到持续服务的新商业博弈

全球数亿块GPU都在跑CUDA，每消耗一个Token，都得从英伟达的平台过一遍。谁掌握了最低的Token生产成本，谁就掌握了AI时代的定价权。英伟达有20年积累的CUDA生态，有数亿的安装基数，有每优化一…

03-17

京东发力具身智能：两年内建成全球最大数据采集中心破解行业“数据荒”

3月16日，京东正式宣布，为推动行业健康快速发展，将依托超级供应链核心优势，以及零售、物流、健康、工业、外卖、家政等海量真实业务场景，建成全球规模最大、场景最全的具身智能数据采集中心，两年内积累超1000…

03-17

阿里推内部计划发Token额度，助力员工运用AI工具提升工作效能

IT之家 3 月 17 日消息，据界面新闻今日报道，阿里巴巴集团正推进一项内部计划，向员工提供 Token 额度，鼓励员工在工作中使用先进的AI 模型与工具。根据该计划，阿里员工可免费使用悟空、Qoder…

03-17

月之暗面Kimi发布《Attention Residuals》技术报告获马斯克等硅谷人士高度评价

该技术不仅被业界解读为下一代模型架构的预示，也获得硅谷顶级AI专家和企业家的广泛关注，马斯克评价这一研究“令人印象深刻”。这一创新不仅优化了计算效率，还显著提升了大模型的训练效果。这一创新不仅优化了计算效率，…

03-17

百度搜索Skill成OpenClaw“装虾”利器下载量居全球首位

3月17日，在百度“龙虾”战略全景发布会上，百度集团执行副总裁、百度智能云事业群总裁沈抖表示，搜索能力是OpenClaw这类AI Agent落地的重要基础设施。百度搜索Skill已经成为“装虾必备”Skil…

03-17

英伟达GTC 2026：AI算力需求或达万亿美元，太空计算新赛道开启

这个数字背后，既是英伟达对AI基础设施需求的判断，也呈现出一个新的趋势：当AI从“会回答问题”走向“会完成任务”，算力需求可能再次被放大。根据英伟达的介绍，这一系统可以与OpenClaw的代理工具进行协同…

03-17

小米海外发布POCO X8 Pro系列新机，大电池高配置带来新体验

IT之家 3 月 17 日消息，小米现已在海外市场推出 POCO X8 Pro/X8 Pro Max 手机，分别搭载天玑 8500 Ultra/ 天玑 9500s 芯片，电池容量最高 8500mAh。这款…

03-17

小米18影像或迎突破性升级苹果iPhone 19e将告别60Hz屏引期待

2025年9月和12月，小米分别发布了小米17/17 Pro/17 Pro Max和小米17 Ultra/徕卡版，按照爆料，后续应该还有款小米17系列家族的新成员，但在此之前，新一代小米18也开始有爆料了，来…

03-17

一加16或首搭240Hz超刷屏，一加Ace6至尊版内置风扇，新机亮点抢先看

况且核心配置上还会搭载六代骁龙8至尊版Pro，2nm工艺，主频突破5GHz，辅以LPDDR6内存和UFS 4.1闪存，性能上也有极强的保障。内置风扇这件事，之前只在少数游戏手机上出现过，但那些产品往往牺牲…

03-17

百度搜索Skill成OpenClaw“装虾”利器，下载量飙升领跑全球

3月17日，在百度“龙虾”战略全景发布会上，百度集团执行副总裁、百度智能云事业群总裁沈抖表示，搜索能力是OpenClaw这类AI Agent落地的重要基础设施。百度搜索Skill已经成为“装虾必备”Skill…

03-17

摩尔线程等联合发布OISA高密超节点规范，引领智算产业迈向高效绿色新未来

在智算中心的物理布局与逻辑拓扑中，OISA高密超节点通过空间密度与扩展维度的深度重构，打破传统架构的算力增长壁垒。核心协议层面，基于OISA 2.0版本的原生内存语义支持，该设计实现了跨节点的无障碍数据访问…

03-17

英伟达GTC大会发力开源AI：多领域模型升级，加速智能体与科研新突破

IT之家 3 月 17 日消息，今天（3 月 17 日）在美国加州圣何塞举行的 2026 年 GTC大会上，英伟达为推动智能体（Agentic）、物理与医疗 AI 的下一波浪潮，宣布全面扩展其开源模型家族。…

03-17

点击查看更多 +

全站最新

百度搜索Skill成OpenClaw“装虾”利器，下载量飙升领跑全球

飞速创新(03355.HK)招股中，AI革命浪潮"卖铲人"填补港股赛道空缺

阿里发布"悟空"，要把"龙虾"装进2000万企业组织里

直击GTC现场："J. Huang WAS HERE"! 联想集团新一代工作站亮相

康龙化成(03759.HK)获Norges Bank增持55.75万股

IMAX CHINA(01970.HK)遭Manwaring Daniel Wade减持21.52万股

热门内容

本栏最新

百度搜索Skill成OpenClaw“装虾”利器，下载量飙升领跑全球

雷军官宣！苏炳添成小米汽车代言人，驾SU7 Max超一年赞操控精准

新一代SU7 3月19日发布在即！9种车身配色4款内饰6款轮毂任你选

小米新SU7即将登场！智能化配置拉满，首月交付或破1.6万引期待

科大讯飞Loomy桌面AI助理亮相：降低使用门槛，适配多IM工具助力办公

小米新SU7来袭！配置全面升级，首月1.6万产能能否满足市场热望？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

阿里千问发布DeepPlanning基准测试：顶尖AI规划能力待提升 自主决策尚有距离

阿里千问发布DeepPlanning基准测试：顶尖AI规划能力待提升自主决策尚有距离