阿里云旗下通义团队近日宣布,其自主研发的深度研究智能体模型DeepResearch正式面向全球开发者开源。该模型凭借300亿参数规模(激活30亿参数)在多项权威基准测试中刷新纪录,不仅超越DeepSeek-V3.1和OpenAI同类模型,更在被称为"人类终极考试"的HLE榜单中以32.9%的准确率登顶全球榜首。
在OpenAI提出的BrowseComp复杂网页任务基准测试中,该模型以43.4%的准确率领跑开源社区。开发者现已可通过Hugging Face、GitHub及ModelScope平台获取完整模型代码与训练框架,GitHub项目上线首周即收获7200颗星标,引发全球AI研究者热议。Hugging Face联合创始人克莱姆·德朗热亲自转发项目链接,斯坦福大学NLP实验室等权威机构也跟进关注。
与传统问答式AI不同,DeepResearch构建了完整的研究工作流。面对夏威夷珍珠城房产交易查询等复杂需求时,模型会自动拆解为"联网检索-多源验证-结构化分析-报告生成"四步流程。在处理法律纠纷咨询时,模型通过调用法条数据库、司法判例库和学术文献库,完成从问题解析到证据链构建的全过程,最终生成可追溯的研究报告。
技术实现层面,研究团队创新性地提出"智能体合成数据"训练体系。通过构建包含200亿实体的开放世界知识库,模拟生成数千万组规划-推理-决策动作数据。在后训练阶段开发的WebSailor V2框架,能够自动生成包含信息隐藏、噪声注入的复杂问题集,有效防止模型学习路径捷径。这种数据生成方式使合成数据质量超越人工标注,训练效率提升300%。
针对长程研究任务,团队开发了双重推理模式。标准任务采用ReAct(思考-行动-观察)循环机制,支持128K上下文窗口的多轮交互。面对跨学科数学建模等复杂任务时,模型自动切换至Heavy Mode深度模式,通过"信息精炼-报告迭代-决策优化"的循环机制,将任务分解为多个研究轮次。这种架构使模型在BrowseComp-ZH中文基准测试中准确率提升27%。
在强化学习训练环节,研究团队构建了全栈式基础设施。通过离线维基百科和自定义工具套件搭建的仿真环境,使训练成本降低80%。工具沙盒机制通过缓存响应、失败重试等技术,确保智能体训练稳定性。基于rLLM的异步框架支持千级智能体并行训练,数据管理模块实现训练数据与模型性能的动态优化闭环。
实际应用层面,该技术已深度融入高德地图导航系统。在杭州西湖景区POI推荐场景中,模型可同时处理地理位置、用户评价、交通条件等12维约束参数,3秒内生成包含路线规划、餐饮推荐的完整方案。法律领域落地的"通义法睿"智能体,通过迭代式规划架构实现多步法律推理,在案例引用准确率、法条适配度等指标上超越主流商业模型。