阿里再次在AI领域投下重磅炸弹——旗下首个深度研究智能体模型“通义DeepResearch”正式开源。该模型不仅在多项权威基准测试中刷新纪录,更以30B参数(激活3B)的轻量化设计超越OpenAI、DeepSeek等国际顶尖团队,成为全球深度研究领域的“新王”。
在被誉为“人类终极考试”的HLE榜单中,通义DeepResearch以32.9%的准确率登顶榜首,大幅领先DeepSeek-V3.1的29.8%和OpenAI DeepResearch的26.6%。而在OpenAI提出的BrowseComp超高难度测试中,其43.4%的准确率同样领跑开源模型。目前,该项目已在GitHub收获7.2k星标,Hugging Face和ModelScope平台同步开放下载。
与传统AI“一问一答”的模式不同,通义DeepResearch构建了完整的“研究员”工作流:从问题拆解、多源数据交叉验证,到结构化归纳和报告生成,其每一步操作均可追溯、可复现。例如,当用户询问夏威夷珍珠城两处房产2022年售价时,模型会自主调用联网搜索工具,在多个数据源中反复比对,最终锁定更贵房产的成交金额。
在法律场景中,这一能力得到更深度验证。面对“原告退资请求是否违反资本维持原则”的复杂问题,模型不仅检索法条和判例,还能调用学术文献工具,综合分析后给出法律意见。其执行过程被分解为数十个可验证的子任务,确保结论的严谨性。
技术层面,团队首创“智能体合成数据”体系,通过构建开放世界知识记忆库,自动生成包含规划、推理、决策三类动作的训练数据。在后训练阶段,全新流程可制造带“迷雾”的复杂问题——如隐藏关键信息或叠加不确定性,迫使模型探索多步推理路径。这种“博士级”难题生成机制,使模型在跨学科任务中表现突出。
为应对长程任务挑战,团队提出双模式推理架构:标准任务采用ReAct模式,通过128K上下文实现快速交互;复杂任务则切换至Heavy模式,将任务分解为多轮研究,每轮仅保留精华结论构建新工作空间。这种“迭代-重构”机制有效避免了信息过载导致的推理能力衰退。
训练流程上,团队打通“增量预训练-微调-强化学习”全链路,基于GRPO算法优化策略梯度,结合留一法降低估计方差。为保障数据质量,其构建的仿真训练环境可离线调用维基百科和自定义工具,通过缓存机制和自动数据管理形成“生成-训练”闭环。这种全栈式基础设施使模型在强化学习阶段持续进化,策略熵值保持高位,避免过早收敛。
实际应用中,该技术已赋能高德地图“小高老师”和法律智能体“通义法睿”。前者可处理“西湖边4.5分以上带儿童餐、步行1公里内可达的浙菜馆”等复杂需求,生成包含路线规划的详细方案;后者则通过迭代式规划,在案例引用、法条解析等维度超越国际竞品。这些落地案例证明,轻量模型同样能支撑高复杂度场景。