ITBear旗下自媒体矩阵:

通义DeepResearch重磅登场:性能比肩海外旗舰,模型框架方案全开源赋能研究

   时间:2025-09-18 17:28:44 来源:机器之心Pro编辑:快讯团队 IP:北京 发表评论无障碍通道
 

阿里巴巴旗下通义团队近日宣布推出全新AI研究工具——通义DeepResearch,标志着人工智能从基础交互向深度研究能力的跨越式发展。该模型在Humanity's Last Exam、BrowseComp等七大权威基准测试中刷新最佳成绩,30B参数版本实现与海外旗舰模型持平甚至超越的表现,同时以完全开源策略打破技术壁垒,覆盖模型架构、训练框架及解决方案全链条。

通义DeepResearch模型架构示意图

技术突破的核心在于创新的数据工程体系。研究团队构建了三级数据生成管道:首阶段通过知识图谱与爬虫数据构建实体锚定知识库,生成覆盖200余种场景的问答对;中段开发动作合成引擎,自动生成规划、推理、决策三类动作数据,消除对商业API的依赖;终段采用模糊化策略与集合论建模,系统提升问题复杂度。该方案使数据质量超越人工标注,支持从网页遍历到学术检索的全场景训练。

在强化学习领域,团队提出GRPO优化算法框架,通过token级策略梯度损失与留一法优势估计,将方差降低40%。基础设施层面,搭建离线维基百科模拟环境与工具沙盒系统,使训练效率提升3倍。自动数据管理系统通过动态漏斗机制,实时优化训练集构成,形成"数据生成-模型训练"的正向循环。这种全栈式解决方案使30B参数模型在复杂推理任务中展现出博士级研究能力。

模型提供双模式推理架构:标准ReAct模式支持128K上下文窗口,适用于高频交互场景;深度模式(Heavy Mode)采用IterResearch范式,将任务解构为多轮研究周期。每轮通过核心报告提炼机制,保持认知焦点的同时提升推理质量。研究显示,该模式使长期任务成功率提升65%,特别在需要跨学科知识整合的场景中表现突出。

IterResearch范式工作机制示意图

实际应用层面,高德出行Agent成为首个落地案例。通过整合地图导航与本地生活服务工具,该系统可处理"周末亲子游+餐厅预订+交通规划"等复合需求。法律领域推出的通义法睿平台,集成案例检索、合同审查等五大功能,在答案要点完整性、法条匹配精准度等维度达到行业领先水平。目前模型已开放Hugging Face与ModelScope双平台下载,配套发布11篇技术论文,详细披露从持续预训练到强化学习的全流程实现细节。

研究团队强调,合成数据质量与训练环境稳定性是项目成功的关键因素。实验表明,纯合成数据训练的模型在BrowseComp测试集上表现优于混合数据方案23%。这种发现为AI Agent训练提供了新范式,特别是在需要处理动态环境与复杂推理的场景中具有重要指导意义。随着30B-A3B模型的全面开源,深度研究能力将加速向各行业渗透。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version