ITBear旗下自媒体矩阵:

GLM-5.1挑战长程任务:实测中扛住多重考验,表现直逼Claude Opus 4.6

   时间:2026-04-08 15:30:40 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

智谱正式推出其最新开源大模型GLM-5.1,这款模型在专业软件开发基准测试SWE-Bench Pro中以58.4分的成绩刷新全球纪录,超越了GPT-5.4、Claude Opus 4.6等闭源模型以及MiniMax M2.7、Kimi K2.5等开源竞品。该模型专为复杂长程任务设计,具备持续自主规划、执行和迭代的能力,能够交付完整的工程结果。

在向量数据库调优任务中,GLM-5.1无需人工干预,通过655轮自主迭代将性能提升至初始水平的3.6倍。更令人瞩目的是,该模型仅凭一张架构草图,连续工作超过8小时,完成1200多个操作步骤,最终输出功能完备的Linux桌面系统。据官方测算,这一成果相当于4人团队连续工作一周的工作量,使其成为全球首个在真实工程场景中验证持续工作能力的开源模型。

发布后迅速引发海外开发者社区热议,相关推文在12小时内阅读量突破200万次,目前累计已达227万次。多位开发者实测后表示,GLM-5.1的使用体验已接近Claude Opus 4.6。AI开发者toli通过对比测试发现,在113个编程任务中,GLM-5.1的表现与Opus 4.6几乎持平,而智谱提供的Coding Plan用量是Claude Code的三倍,价格仅为后者的三分之一。软件定制公司Zenoware创始人JP用该模型一次性完成了10个开发案例,认为其是中国最接近Opus 4.6的模型。

在基准测试中,GLM-5.1展现全面优势:编程能力维度位列全球第三、国产第一、开源第一;设计能力排名第四,与Opus 4.6、Sonnet 4.6同属第一梯队;文本能力则被评为开源模型榜首。这些成绩得益于其创新的训练策略——通过扩展任务过程训练窗口,结合多轮监督微调与强化学习,使模型掌握从任务接收到交付的完整工作流。

实际工程测试进一步验证其可靠性。在搭建待办事项看板的任务中,面对连续十几条需求变更,GLM-5.1始终保持开发节奏,最终交付功能完整、交互流畅的产品,前后端数据联动准确,UI细节处理专业。相比之下,Claude Opus 4.6虽然实现了核心功能,但在色彩选择和界面设计上略显单调。

更严苛的测试场景中,研究人员故意制造网络中断和遗留代码问题,并修改中文字符编码制造乱码。GLM-5.1展现出强大的环境适应能力:网络恢复后迅速梳理项目结构,补全前端代码;精准识别后端技术栈缺陷并提出优化方案;主动排查并修复5个API路径问题;通过29次工具调用定位并解决中文乱码问题。整个过程无需人工干预,最终交付包含数百个文件的完整项目,与Claude Opus 4.6的成果处于同一水平。

这款模型的突破性进展,标志着开源社区在长程任务处理能力上取得重大进展。通过自主规划、持续执行和智能纠偏机制,GLM-5.1成功跨越了从"代码生成"到"项目交付"的关键门槛,为复杂工程场景的AI应用开辟了新路径。其8小时持续工作能力的验证,更重新定义了开源模型在真实业务环境中的价值标准。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version