滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里巴巴新成果：AI智能体化身严谨研究员，开启深度调研新范式

时间：2026-04-09 02:12:23 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

阿里巴巴国际数字商务集团近日宣布，其研发团队成功推出名为Marco DeepResearch的深度研究智能体，该系统以8B参数规模实现了超越部分30B大型模型的性能表现。这项突破性成果通过系统性引入验证机制，解决了传统AI研究工具在数据准确性、推理可靠性等方面的核心痛点，为人工智能辅助复杂研究提供了全新范式。

研究团队发现，现有AI研究工具普遍存在"三重盲点"：数据准备阶段因模糊化处理导致答案歧义，学习过程缺乏中间验证步骤，实际工作时受限于固定搜索策略。这些问题相互叠加，常使AI系统在处理复杂任务时产生错误累积效应。以科技公司创始人识别任务为例，当问题被改写为"以水果命名的科技公司创立者"时，系统可能同时将苹果、黑莓等公司创始人列为候选答案。

为破解这一难题，研发团队构建了贯穿全生命周期的验证体系。在数据生成环节，创新采用知识图谱逆向工程与智能体网络探索双路径：前者通过"生成器-攻击者-分析器"三角博弈确保问题答案唯一性，后者要求智能体先收集可靠证据再构建问题。这种设计使合成数据的问题可回答率虽降至29%，但人工评估显示90%以上样本具备有效挑战性。

训练阶段引入多智能体验证框架，主智能体负责任务分解，搜索子智能体执行具体查询，验证子智能体则独立检查每个推理步骤。当发现错误时，系统会记录纠错轨迹并重新训练，形成"错误诊断-策略修正"的闭环。这种机制使模型不仅学会正确答案，更掌握验证方法——在强化学习阶段，系统通过组相对策略优化，使模型在2000个高质量样本上获得显著性能提升。

实际工作时的"验证引导扩展策略"构成第三道防线。系统采用"全部丢弃"机制，当检测到推理退化时自动重置上下文，避免错误传播；同时实施多候选答案并行验证，在时间预算内持续探索更优解。配合128K token的扩展上下文窗口，该策略使模型在BrowseComp基准测试中取得31.4分，较基线提升15分，在中文环境测试中更达到47.1分的领先水平。

实验数据显示，Marco DeepResearch在六个权威基准测试中全面超越同规模模型。在WebWalkerQA任务中，其69.6分的表现接近人类专家水平；面对需要跨页面证据聚合的DeepSearchQA任务，系统生成的答案集完整性较前代提升40%。特别值得注意的是，该模型在GAIA文本版任务中仅以0.5分微弱差距落后于4B参数的RE-TRAC模型，展现出小规模模型的巨大潜力。

技术实现层面，研究团队基于Qwen3-8B骨干模型，通过YaRN技术实现长序列处理能力。工程优化方面，采用Redis缓存系统减少重复计算，异步工具调用提升并发性能，使64个A100 GPU集群的训练效率提升30%。两阶段训练流程中，监督微调阶段结合开源数据集与12000个合成样本，强化学习阶段则通过二元奖励机制确保输出质量。

这项成果对AI辅助研究具有多重启示。在学术领域，系统可自动完成文献调研、数据交叉验证等基础工作，使研究者专注核心创新；商业应用中，其可靠性验证机制特别适合市场分析、技术趋势预测等场景；教育领域则可培养学生系统的研究方法论。研究团队正探索将验证机制扩展至多模态领域，通过结合学术论文、专利数据库等结构化数据，进一步提升系统在专业领域的适用性。

更多>同类资讯

Kimi估值飙至315亿美元：技术突破引领增长，开发者成收入主力军

07-01

字节跳动领导力原则焕新升级：勇攀高峰，引领组织持续创新突破

07-01

玻璃技术突破引领CPO产业变革，投资聚焦核心环节掘金新机遇

07-01

月之暗面Kimi估值飙至315亿美元商业化加速API收入成主力增长极

07-01

华南理工学霸夫妻13年“爆改”工厂，从濒停产到AI算力PCB千亿龙头

07-01

京东折扣超市淮南首店爆火：19万客流领跑，硬折扣模式重塑零售新格局

07-01

月之暗面Kimi：以激进技术探索无人区，凭克制扩张书写独特篇章

07-01

同程旅行溢价收购嘀嗒出行，双平台模式或开启共享出行新篇章

07-01

梁汝波全员信发布：字节跳动AI时代更新领导力原则明确管理新方向

邮件内容提到，在追求使命愿景的过程中，字节将公司运作的思考和原则沉淀为管理理念，主要包括四部分：业务战略制定原则、组织管理、人才策略和公共事务。梁汝波称，上一次更新领导力原则是在2022年，今年重新审视了…

07-01

智元精灵G2机器人直播作业64小时，64828件任务成功率高达99.99%

IT之家 6 月 29 日消息，智元今日宣布，6 月 23 日至 28 日，智元精灵 G2机器人开启“平板量产质检工段全覆盖”真实产线直播，机器人作业成功率 99.99%。官方表示，本次总直播时长 64 …

07-01

小米集团官方辟谣平台@小米辟谣正式上线，助力谣言澄清与商誉维护

IT之家 6 月 30 日消息，小米科技有限责任公司上线了 @小米辟谣官方微博账号，并于今天下午发布了首条内容：“向大家汇报一下，‘小米辟谣’官方辟谣阵地今天在中央网信办违法和不良信息举报中心的指导下，正式…

07-01

联想摩托罗拉新品来袭：moto tag 2续航超500天，moto buds 2 plus增新配色

IT之家 6 月 30 日消息，联想旗下摩托罗拉今日正式推出 moto tag 2 蓝牙追踪器，售价 29.99 美元（IT之家注：现汇率约合204.1 元人民币）。据介绍，moto tag 2 是联想旗…

07-01

退役旧手机“变身”计算新力量：UC San Diego与Google探索算力新路径

两千台退役手机能提供大约五十台服务器的等效算力，这个数字本身不算惊人，但它意味着现有的、已经被造出来却被闲置的计算能力有很大的利用价值。如果退役不再等同于报废，旧硬件的计算能力可以被剥离出来、重新部署，继续在…

07-01

小米REDMI K90至尊版性能铁三角亮相搭载同款风冷散热引期待

IT之家 6 月 30 日消息，在今晚的 REDMI K90至尊版手机发布会上，小米中国区市场部总经理魏思琪公开了新机的性能铁三角：骁龙 8至尊版处理器 + 独显芯片 D2 + 满血存储（LPDDR5XUl…

07-01

内存成本攀升下的创新之举：Meta自研芯片让旧DDR4内存重焕生机

快科技6月30日消息，近日，Meta在ISCA 2026大会上展示了自研Vistara定制芯片方案，让新服务器复用拆机DDR4内存。这套方案已经在Meta的数百万台服务器中跑起来了，用于机器学习推理、大数据…

07-01

点击查看更多 +

全站最新

短视频撬动全球市场邢台激光设备凭实力“出海”揽订单

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

鸿蒙智行智界V9旗舰MPV受热捧 6月交付量突破5000台大关

14个月10万辆达成，东风日产以体系力破局新能源市场

热门内容

本栏最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

14个月10万辆达成，东风日产以体系力破局新能源市场

雷军谈小米SU7 Ultra纽北佳绩：初心铸就梦想之车，国产新能源闪耀全球赛道

纽北赛道见证中国电车实力！小米SU7 Ultra车主跑出佳绩，雷军发文致谢

AI创新研学之旅启程！7月23-24日探访北大京东百度商汤科技领航未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.