上海人工智能实验室近期公布一项突破性成果:其研发的350亿参数智能体模型Agents-A1在多项复杂任务中展现出与万亿参数商业大模型抗衡的实力。这项以"扩展智能体视野"为核心思路的研究,通过重构AI训练范式,为资源有限的研究团队开辟了新的技术路径。实验数据显示,该模型在长程搜索、科学推理等六个专项领域中,有12项基准测试成绩超越或持平GPT-5.5等顶级模型。
传统AI开发遵循"大力出奇迹"的路径,参数规模与性能呈现强关联。Agents-A1团队另辟蹊径,将研究重点转向任务处理流程的优化。其核心创新在于构建"知识行动图"(KAG),该系统将任务拆解为素材库、操作集、观察结果和验证器四个维度,完整记录模型从状态判断到行动执行的全过程。这种设计使模型不仅能存储正确路径,更保留了错误尝试与修正过程,形成包含10万条长程轨迹的动态训练库,平均每条数据长度达4.5万词语。
研究团队针对不同任务类型建立六条专项数据流水线。在长程搜索领域,通过维基百科超链接构建有向图,生成需要多级跳转的推理任务;科学推理模块则对基础题目进行双重增强,既增加知识深度又强化工具交互需求;工具调用专项创新性地建立"工具依赖图",确保任务生成符合真实场景的约束关系。这些精心设计的训练数据,使模型在处理复杂任务时展现出类似人类厨师的流程管理能力。
训练体系采用三段式渐进策略:首先进行全领域监督微调,使用10万条跨领域数据建立基础能力;随后针对搜索、科学等四个核心领域分别训练教师模型,通过强化学习实现专项突破;最终通过多教师在线蒸馏技术,将六个领域的能力整合到统一模型。这种分阶段训练方式有效解决了不同任务思考模式冲突的问题,特别是在指令遵循领域,通过动态采样策略将训练效率提升40%。
在具体性能对比中,Agents-A1在HiPhO物理奥林匹克基准取得46.4分,超越GPT-5.5的43.3分;FrontierScience-Research研究级科学推理基准上,该模型以40.0分大幅领先第二名GPT-5.5的26.7分。在分子科学智能体任务中,其56.8分的成绩较Kimi-K2.6提升165%。不过,研究团队也指出模型在机器学习工程领域的局限性,在需要持续决策的MLE-Bench-Lite测试中,其奖牌率较顶级商业模型存在20-30个百分点的差距。
两个实战案例充分展示模型潜力。在12小时机器学习竞赛优化任务中,Agents-A1从基础CNN网络起步,通过时序分析、数据增强等七次迭代,将鲸鱼叫声检测准确率从0.58提升至0.9935。地球科学分析任务中,模型自主完成热带风暴数据提取、清洗、可视化及报告撰写全流程,生成的五组专业图表准确标注了关键演变阶段。这些案例验证了模型在真实场景中的闭环执行能力。
这项研究的技术细节已通过arXiv平台公开(编号2606.30616),其核心价值在于证明AI性能提升存在替代路径。通过优化任务处理流程而非单纯扩大参数规模,中小研究团队也能开发出具有竞争力的智能体系统。研究团队特别强调,模型在元认知能力方面仍有提升空间,未来将重点强化规划前置、长上下文关键信息提炼等高级功能。











