阿里巴巴今日宣布,正式开源其首个深度研究智能体模型——通义DeepResearch。该模型在多个权威智能体评测基准中表现优异,以30亿激活参数的轻量化设计,超越了基于OpenAI o3、DeepSeek V3.1及Claude-4-Sonnet等旗舰模型构建的ReAct智能体。
在Humanity’s Last Exam(HLE)、BrowseComp系列、GAIA、xbench-deepsearch、WebWalkerQA及frames等七大国际评测中,通义DeepResearch展现出显著优势。其核心突破在于解决了传统"单窗口线性处理"模式在长周期任务中面临的"认知空间过载"和"噪声累积"问题,有效提升了复杂研究场景下的推理稳定性。
技术实现层面,研究团队以Qwen3-30B-A3B模型为基座,构建了覆盖预训练与后训练的完整合成数据训练链路。该方案创新性地整合了异步强化学习算法与自动化数据策展流程,通过真实环境与虚拟环境的双重验证模块,显著提升了模型迭代效率。特别设计的RL算法框架支持多维度能力优化,使模型在保持轻量化的同时具备更强的泛化能力。
在推理机制方面,模型提供ReAct与Heavy双模式选择。ReAct模式侧重基础能力验证,确保模型核心推理的准确性;Heavy模式则通过动态扩展的test-time scaling策略,在处理复杂长任务时自动激活性能上限,实现推理质量与效率的平衡。这种双轨制设计使模型既能应对常规任务,也可处理需要深度分析的复杂场景。
目前,该模型的完整代码、训练框架及部署方案已在GitHub、Hugging Face及魔搭社区同步开源。开发者可通过以下地址获取资源:
GitHub:https://github.com/Alibaba-NLP/DeepResearch
Hugging Face:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
魔搭社区:https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
此次开源是阿里巴巴在智能体领域的又一重要布局。此前,该团队已陆续推出WebWalker、WebDancer和WebSailor等检索推理模型,均在开源社区取得领先成绩。通义DeepResearch的发布,不仅为深度研究赛道提供了轻量化高性能的解决方案,更为全球开发者攻克复杂研究任务提供了关键技术支撑。