阿里云宣布,旗下首款深度研究智能体模型——通义DeepResearch正式开源,引发全球AI领域高度关注。该模型凭借300亿参数规模(激活30亿)在多个权威基准测试中打破纪录,不仅超越DeepSeek-V3.1和OpenAI同类模型,更以全球第一的成绩登顶HLE榜单。
在被称为"AI终极考试"的HLE测试中,通义DeepResearch取得32.9%的领先得分,较第二名DeepSeek-V3.1高出3.1个百分点。在OpenAI提出的BrowseComp复杂任务榜单上,该模型以43.4%的准确率成为开源领域领跑者。开发者现已可通过Hugging Face、GitHub和ModelScope平台获取完整模型,GitHub项目上线首周即获7200颗星标。
与传统问答AI不同,通义DeepResearch突破"一问一答"模式,构建了完整的自主研究体系。面对复杂问题时,模型会规划深度搜索、多源交叉验证、结构化归纳、报告生成的全流程研究路径。以夏威夷房产查询为例,系统能自动识别地理信息,联网检索2022年房产交易记录,在多个数据源间交叉验证后,准确返回Akaikai Loop 2072号房产的成交金额。
技术团队创新性构建了"智能体合成数据"体系,通过AgentFounder框架实现训练数据自动化生成。在预训练阶段,系统将知识文档、网页数据、学术图谱等构建为开放世界记忆库,自动生成包含规划、推理、决策三类动作的百万级训练样本。后训练阶段采用的WebSailor V2方案,通过随机游走、信息隐藏等技术,生成难度可控的跨学科研究任务。
针对长程复杂任务,模型独创的Heavy Mode推理架构将研究过程分解为多个迭代轮次。每轮仅保留关键结论构建新工作空间,通过Research-Synthesis框架整合多智能体研究结果。这种设计使模型在处理星座数学模型等跨学科难题时,能自主调用Python解释器、谷歌学术等工具,完成从理论推导到实证验证的全过程。
训练体系方面,团队打通Agentic CPT增量预训练、SFT微调、Agentic RL强化学习的全链路。基于GRPO算法优化的强化学习框架,结合128K超长上下文窗口,使模型在BrowseComp测试中持续进化。全栈式训练基础设施包含离线维基百科模拟环境、工具沙盒交互机制、自动数据管理系统,确保训练稳定性。
实际应用层面,该技术已深度融入高德地图导航系统。在西湖周边餐饮查询场景中,模型能同时处理地理区域、评分、儿童餐、步行距离等五维约束条件,三秒内给出最优解。法律领域落地的"通义法睿"智能体,可执行多步法律检索,依托真实判例提供可追溯分析,在答案质量、案例引用、法条准确性三个维度超越国际主流模型。