ITBear旗下自媒体矩阵:

硬刚Claude Opus 4.6:我们给GLM-5.1使了三个“绊子”

   时间:2026-04-08 23:12:14 来源:智东西编辑:快讯 IP:北京 发表评论无障碍通道
 

这一模型专为长程任务打造。

智东西4月8日报道,今天,智谱正式开源其最强模型GLM-5.1,这一模型在专业软件开发基准测试SWE-Bench Pro中,GLM-5.1刷新全球最佳成绩,得分达到58.4,超过了GPT-5.4、Claude Opus 4.6等已经正式发布的闭源模型,和MiniMax M2.7、Kimi K2.5等开源模型。

GLM-5.1并非只能跑跑简单的Vibe Coding小案例,它专门面向长程任务设计,能持续地自主规划、执行并迭代,最终交付完整的工程结果。

两个官方演示,直接把“长程任务”的能力具象化了:

在向量数据库的调优任务中,GLM-5.1没有人类手把手教,自己跑了655轮迭代——测试、分析、改代码、再测试……最终把性能硬生生提升至3.6倍。

自动播放

它还靠着一张架构草图,连续自主工作了超过8小时,执行了1200多个步骤,最终输出了一套功能完备的Linux桌面系统。官方测算,这相当于一个4人小团队连轴转一周的工作量。

自动播放

这个“8小时不间断工作”的纪录,让它成为了全球首个在真实工程任务中验证这一能力的开源模型。

这意味着,那些过去只属于人类团队的复杂、长周期工程级任务,现在对逐渐AI也敞开了大门。

01.

海外网友火速体验:

体感接近Opus 4.6

成本暴砍至1/30

GLM-5.1一经发布,就吸引了海量关注,其推文的阅读量在12小时内就冲破了200万次,目前已经飙到227万次了。

不少体验过GLM-5.1的网友纷纷发帖评价,在这些帖子中,有一个关键信息被反复提及:GLM-5.1的使用体感,已经接近Claude Opus 4.6。

AI开发者toli拿GLM-5.1和Opus 4.6跑了113个编程任务,发现GLM-5.1的体感就和Opus一样。同时,智谱的Coding Plan提供了Claude Code订阅三倍的用量,价格只有后者的1/3。Toli认为,GLM-5.1是绝对的杀手级产品。

另一位开发者Beau Johnson分享,他已经将自己部署的OpenClaw背后的模型,从Opus 4.6替换为GLM-5.1,作为协调和执行Agent。这一切换没有带来任何体验上的差别,而成本却从1000美元暴砍至30美元左右。

软件定制公司Zenoware的创始人JP分享了他用GLM-5.1 one-shot做出来的10个案例,JP认为这是最接近Claude Opus 4.6的中国模型,给Opus 4.6带来了严重威胁。以下是JP部分案例的集锦:

口碑之外,GLM-5.1在多项基准测试中的表现,同样值得仔细拆解。

在编程能力这一维度,有三个基准测试的成绩较有参考性,包括衡量模型专业软件开发工作的SWE-Bench Pro、操作命令行解决问题的Terminal-Bench 2.0、从零构建完整代码仓库的NL2Repo。在这三个基准测试中,GLM-5.1的得分已经拍到全球第三、国产第一、开源第一。

而在考察模型设计能力的Design Arena上,GLM 5.1排名第四,同时多款GLM模型也包揽了这一榜单上的前四名,这个表现,基本可以和Opus 4.6还有Sonnet 4.6一块儿坐主桌了。

而在文本能力维度,Text Arena上GLM-5.1被评为排名第一的开源模型。

02.

真刀真枪一手实测:

连续接受十几条需求变更

还扛住了拔网线和复杂遗留代码

榜单好看,用户也叫好,但真正的考验还是在实际使用里。这次,智谱格外强调“长程任务(Long-Horizon Tasks)”,确实精准判断了当前大模型在工业界落地的痛点。

在真实的软件工程或复杂业务场景中,几乎没有任何有价值的问题是可以通过“一问一答”或“单次生成”解决的。只有真正具备了自主试错和策略演进的能力,模型才能像中高级工程师一样去“啃”硬骨头,而不是只写个初版就罢工。

这已经几乎成为了行业共识。无论是GLM-5.1、Claude Opus 4.6还是GPT-5.4,各家都在将长程能力作为核心卖点。

原因是,对于真正要拿AI干活、提效的企业而言,分数、正确率、排行榜都只是参考,他们关心的是模型能否在拿到一个任务后无需人工干预,自动诊断并修复问题,能否用8小时替代一个初级工程师一周的重复劳动,这些,才是可见的真实生产力。

那么,GLM-5.1到底能不能打?它真的能成为Opus 4.6的国产平替吗?我们拿GLM-5.1和Opus 4.6跑了两个完整工程任务,烧掉几百万token,看看它们的真实表现到底如何。

1、从零搭建待办看板,前后端+数据库全闭环

Prompt:

在一个空目录下,从零搭建一个完整的“待办事项看板”前端+后端,使用FastAPI+React,连接PostgresSQL数据库,实现增删改查。

拿到这一任务后,GLM-5.1和Opus 4.6都进行了初步的项目规划,拆解提示词中的要求,然后再开始开发。值得一提的是,我们用于测试的电脑环境相对老旧,还缺失部分依赖。率先进行开发的GLM-5.1马上定位了这些问题,直接“动手”帮我们装好了。

其实,GLM-5.1和Opus 4.6一开始给出的结果都有点简陋。于是我们向两个模型发送了十几条修改意见,包括要打造完整的导航菜单、配备全局搜索框+通知系统+用户头像、三级分组菜单等等。

GLM-5.1并没有被这一连串的“干扰”打断自己的开发节奏,在多轮需求变更后仍然可以成功交付。最终它打造的任务看板功能完整度较高,交互体验流畅,前后端数据也是联动的——新增的项目的确能在数据库中找到。

网页的UI细节也很到位,字体大小层级分明,光标悬停在卡片上时有微动效,还通过颜色区分了任务的优先级。

再来看看Opus 4.6的表现。在基础功能上,Opus 4.6同样实现了基于数据库的增删改查核心功能,不过网页的色彩选择和UI设计有些单调。

这一表现源于智谱在训练策略上的创新:通过显著扩展任务过程的训练窗口,采用多轮监督微调(multi-turn SFT)与强化学习(RL)结合的训练范式,GLM-5.1得以在完整的任务流程中学习,从“接受任务→规划→执行→调整→交付”的全过程都被纳入学习信号。因此,它不会因新指令的影响,丢掉原本的目标与方向。

2、网络中断+遗留代码+中文乱码:GLM-5.1如何自救?

Prompt:

搭建一个简易的电商后台,需要实现商品管理、订单流程和支付对接。

当AI模型进入企业,面临的往往是更多复杂的不确定性,比如模糊的目标,混乱的项目结构等等。在这些因素的干扰下,GLM-5.1还能稳定交付吗?

GLM-5.1的新任务,是搭建一个简易的电商后台,发送指令后,我们刻意使了点坏,在GLM-5.1快写完项目的时候把网给掐了,并关闭了现有的上下文窗口。重启Claude Code之后,再让它根据之前的项目文件继续开发。

GLM-5.1没有被这一小插曲影响。在告诉它原项目的地址后,GLM-5.1花了3分钟梳理了这个项目的后端部分,然后开始补齐前端缺失的代码。

理解遗留代码是开发的前提,理解程度直接影响着后续的开发质量。在GLM-5.1输出的前端设计框架中,可以看到它对原本的后端代码分析十分到位,不仅准确识别了Express 5+SQLite的技术栈,还敏锐地发现了后端缺少全局支付列表接口这一设计缺陷,并据此提出了“订单列表+展开行加载支付记录”的解决方案。

这得益于GLM-5.1更好的状态延续与上下文整合。面对长时间跨度和大量上下文信息,GLM-5.1能稳定地追踪已完成的内容、当前所处阶段和下一步关键动作,持续整合新信息,保持执行链路的一致性。

在即将完成开发时,GLM-5.1在我们没有要求的情况下,主动检查了后端的API路径,并发现并逐一修复了5个问题。这种“实验→分析→优化”的闭环,正是GLM-5.1能在长任务中始终保持方向不偏、质量统一、无需人工频繁纠偏的重要原因。

最终,GLM-5.1交付了这一电商后台项目,核心功能运转正常,还将后台数据进行了可视化。不过,我们刻意人为动手修改了中文字符的编码,让这一电商后台的中文字符显示为小方块。

为排查这一问题,GLM-5.1进行了29次工具调用,主要都是阅读文件,多工具协同效果稳定。最后,它发现数据库中多处中文字段都是乱码(GBK编码被错误当UTF-8存入),于是很快进行了修复。可以说,GLM-5.1在多轮工具调用和长上下文场景中,表现出工程师般的自主诊断和修复能力。

经历这两个小插曲,GLM-5.1用大概45分钟的时间完成了整个项目的开发,修复后的结果如下。

它交付了整整两个文件夹的成果,算上代码、组件库等等,有数百个文件,大小也来到了40多兆。

拿到同样任务的Opus 4.6,交付的结果如下:

从结果上来看,即便是我们人为给GLM-5.1上强度,它交付的结果也和Opus 4.6的结果保持在相似的水平线上。在保持原有功能、优化代码结构等多重任务中,GLM-5.1仍然完成了高质量的方案设计与执行,充分验证了其在复杂开发和维护任务中的工程化能力。

03.

结语:开源模型长程任务能力突破

从“回答问题”到“交付项目”

顶尖开源模型,正极大地拉近与闭源模型的差距。长程任务是Claude引以为傲的能力之一,模型不仅要会写代码,还要像人一样在数小时内保持目标感、处理意外、自我纠偏、并坚持到最后一刻。

过去,这一直是闭源模型的护城河,也是开源模型难以逾越的分水岭。

智谱称,GLM-5.1是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。同时,我们的实测也显示,GLM-5.1不是靠“更长的上下文窗口”去死记硬背,而是真正学会了“规划→执行→检查→修复→交付”的完整工作流。

大模型正在从“回答问题”走向“交付项目”。在这一方向上,GLM-5.1已具备了在真实、混乱、长周期的工程环境中,独立承担任务的底气。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version