MiniMax稀宇科技近日推出新一代Agent旗舰大模型M2.7,首次实现“模型自我进化”功能。该模型通过构建Agent Harness体系,深度参与自身训练与优化流程,在部分研发场景中可承担30%至50%的工作量,并在内部评测中实现约30%的效果提升。这一突破标志着AI模型从被动接受训练转向主动优化自身架构的新阶段。
在编程能力方面,M2.7展现强劲实力。在涵盖多种编程语言的SWE-Pro测试中,该模型以56.22%的正确率追平GPT-5.3-Codex;在Repo级代码生成基准VIBE-Pro上,M2.7得分55.6%,几乎与Opus 4.6持平。这些数据表明,M2.7不仅能处理单文件代码生成,更能胜任完整项目交付任务。特别在复杂工程系统理解方面,该模型在Terminal Bench 2测试中取得57.0%的成绩,证明其具备深入理解软件运行逻辑的能力。
研发团队通过构建强化学习Harness,使M2.7具备自主优化能力。在一个持续100轮的迭代实验中,模型通过“分析失败轨迹→规划改动→修改代码→运行评测→对比结果→决定保留或回退”的循环,自主发现多项有效优化方案。这些改进包括系统性搜索采样参数最优组合、设计更具体的工作流指引,以及在Agent Loop中添加循环检测机制。最终在内部评测中,模型性能提升30%,显著缩短研发周期。
办公场景应用中,M2.7在GDPval-AA评测中取得1495的ELO分数,位列开源模型榜首。该模型对Office三件套的操作能力大幅提升,支持多轮高保真编辑和复杂模板应用。在复杂环境交互测试中,M2.7在40个复杂技能(超过2000Token)的案例中保持97%的技能遵循率,在Toolathon评测中正确率达46.3%,达到全球第一梯队水平。这些能力使其能高效处理金融研报分析、营收模型构建等复杂任务。
金融领域应用案例显示,M2.7可自主阅读年报、业绩沟通会纪要和多篇研报,交叉比对数据后独立设计假设并构建营收预测模型。该模型还能根据模板生成PPT和研究报告,并在多轮交互中自我修正。从业者评价其产出物可直接进入后续工作流程,显著提升工作效率。在机器学习任务测试中,M2.7参与MLE Bench Lite的22个研发环节测试,三次测试平均得牌率达66.6%,与Gemini-3.1持平。
多智能体协作是M2.7的另一大亮点。Agent Teams功能要求模型具备稳定的角色锚定、对抗性推理和协议遵循能力。在内部产品原型开发测试中,由多个智能体组成的团队展现出高效协作能力,每个智能体都能主动挑战队友的逻辑盲区,在复杂状态机中自主决策。这种协作模式使项目开发效率提升数倍。











