ITBear旗下自媒体矩阵:

实测MiniMax M2.7:能写代码做游戏,还能化身家人趣聊天

   时间:2026-03-19 01:56:40 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

MiniMax近期发布的M2.7模型引发行业关注,这款被官方定义为“首个深度参与自身迭代的模型”距离前代M2.5的发布仅间隔一个月。在人工智能自我进化成为行业共识的背景下,M2.7通过工程化路径实现了模型能力的突破,其核心创新点在于构建了完整的Agent Harness系统,将模型研发流程压缩为自动化循环。

技术评测显示,M2.7在多项基准测试中表现突出。在SWE Bench Pro代码修复任务中,该模型在真实代码库中的问题定位与修复能力已接近头部模型水平;VIBE-Pro端到端项目测试中,其从需求到交付的全流程执行能力进入第一梯队;MM-ClawBench多步骤工具调用测试表明,模型在长流程任务中的稳定性显著提升。不过在MLE-Bench等复杂推理场景中,其抽象建模能力仍与顶尖模型存在差距。

实际应用测试展现了M2.7的多样化能力。在家庭群聊模拟场景中,模型同时扮演四位性格迥异的家庭成员,通过独立调用子模型维持角色一致性,成功处理了角色关系互动与话题衔接。当用户发送错误指令导致API调用失败时,模型能自主诊断并修复程序漏洞,最终实现自然对话。

编程测试验证了模型的自主开发能力。在霓虹灯数字时钟任务中,M2.7仅用5轮交互即完成从需求分析到代码部署的全流程,展现出高效的执行能力。面对更具挑战的贪吃蛇游戏开发,模型需要处理画布渲染、碰撞检测等12项子任务,虽然过程中出现JSON格式错误等自主修正情况,但最终通过25882个token的消耗完成任务,验证了其复杂系统开发能力。

金融分析测试凸显了模型的专业应用价值。输入英伟达财报数据后,M2.7在90分钟内生成了包含财务模型、风险评估的32页研究报告,同步产出支持滑块交互的财务仪表盘和12页演示文稿。虽然数据获取环节依赖人工输入,但模型展现的数据可视化与多格式输出能力已达到投行初级分析师水平。

值得关注的是,MiniMax同步开源了Agent交互系统OpenRoom的原型代码。该系统通过Web GUI实现可视化交互,所有界面组件均可通过自然语言指令动态生成。在演示案例中,用户通过对话即可控制虚拟角色完成环境交互,这种新型交互范式为AI应用开发提供了新思路。

从代码调试到专业分析,M2.7的测试场景覆盖了普通用户到专业人士的需求。当模型不再局限于单次对话输出,而是作为持续运行的协作伙伴参与完整工作流程时,人工智能的应用边界正在发生质变。尽管在复杂推理稳定性等方面仍有改进空间,但这种将执行权与决策权部分移交模型的尝试,正在重新定义人机协作关系。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version