滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

硬刚Claude Opus 4.6：我们给GLM-5.1使了三个“绊子”

时间：2026-04-08 23:12:14 来源：智东西编辑：快讯 IP：北京 发表评论无障碍通道

这一模型专为长程任务打造。

智东西4月8日报道，今天，智谱正式开源其最强模型GLM-5.1，这一模型在专业软件开发基准测试SWE-Bench Pro中，GLM-5.1刷新全球最佳成绩，得分达到58.4，超过了GPT-5.4、Claude Opus 4.6等已经正式发布的闭源模型，和MiniMax M2.7、Kimi K2.5等开源模型。

GLM-5.1并非只能跑跑简单的Vibe Coding小案例，它专门面向长程任务设计，能持续地自主规划、执行并迭代，最终交付完整的工程结果。

两个官方演示，直接把“长程任务”的能力具象化了：

在向量数据库的调优任务中，GLM-5.1没有人类手把手教，自己跑了655轮迭代——测试、分析、改代码、再测试……最终把性能硬生生提升至3.6倍。

自动播放

它还靠着一张架构草图，连续自主工作了超过8小时，执行了1200多个步骤，最终输出了一套功能完备的Linux桌面系统。官方测算，这相当于一个4人小团队连轴转一周的工作量。

自动播放

这个“8小时不间断工作”的纪录，让它成为了全球首个在真实工程任务中验证这一能力的开源模型。

这意味着，那些过去只属于人类团队的复杂、长周期工程级任务，现在对逐渐AI也敞开了大门。

01.

海外网友火速体验：

体感接近Opus 4.6

成本暴砍至1/30

GLM-5.1一经发布，就吸引了海量关注，其推文的阅读量在12小时内就冲破了200万次，目前已经飙到227万次了。

不少体验过GLM-5.1的网友纷纷发帖评价，在这些帖子中，有一个关键信息被反复提及：GLM-5.1的使用体感，已经接近Claude Opus 4.6。

AI开发者toli拿GLM-5.1和Opus 4.6跑了113个编程任务，发现GLM-5.1的体感就和Opus一样。同时，智谱的Coding Plan提供了Claude Code订阅三倍的用量，价格只有后者的1/3。Toli认为，GLM-5.1是绝对的杀手级产品。

另一位开发者Beau Johnson分享，他已经将自己部署的OpenClaw背后的模型，从Opus 4.6替换为GLM-5.1，作为协调和执行Agent。这一切换没有带来任何体验上的差别，而成本却从1000美元暴砍至30美元左右。

软件定制公司Zenoware的创始人JP分享了他用GLM-5.1 one-shot做出来的10个案例，JP认为这是最接近Claude Opus 4.6的中国模型，给Opus 4.6带来了严重威胁。以下是JP部分案例的集锦：

口碑之外，GLM-5.1在多项基准测试中的表现，同样值得仔细拆解。

在编程能力这一维度，有三个基准测试的成绩较有参考性，包括衡量模型专业软件开发工作的SWE-Bench Pro、操作命令行解决问题的Terminal-Bench 2.0、从零构建完整代码仓库的NL2Repo。在这三个基准测试中，GLM-5.1的得分已经拍到全球第三、国产第一、开源第一。

而在考察模型设计能力的Design Arena上，GLM 5.1排名第四，同时多款GLM模型也包揽了这一榜单上的前四名，这个表现，基本可以和Opus 4.6还有Sonnet 4.6一块儿坐主桌了。

而在文本能力维度，Text Arena上GLM-5.1被评为排名第一的开源模型。

02.

真刀真枪一手实测：

连续接受十几条需求变更

还扛住了拔网线和复杂遗留代码

榜单好看，用户也叫好，但真正的考验还是在实际使用里。这次，智谱格外强调“长程任务（Long-Horizon Tasks）”，确实精准判断了当前大模型在工业界落地的痛点。

在真实的软件工程或复杂业务场景中，几乎没有任何有价值的问题是可以通过“一问一答”或“单次生成”解决的。只有真正具备了自主试错和策略演进的能力，模型才能像中高级工程师一样去“啃”硬骨头，而不是只写个初版就罢工。

这已经几乎成为了行业共识。无论是GLM-5.1、Claude Opus 4.6还是GPT-5.4，各家都在将长程能力作为核心卖点。

原因是，对于真正要拿AI干活、提效的企业而言，分数、正确率、排行榜都只是参考，他们关心的是模型能否在拿到一个任务后无需人工干预，自动诊断并修复问题，能否用8小时替代一个初级工程师一周的重复劳动，这些，才是可见的真实生产力。

那么，GLM-5.1到底能不能打？它真的能成为Opus 4.6的国产平替吗？我们拿GLM-5.1和Opus 4.6跑了两个完整工程任务，烧掉几百万token，看看它们的真实表现到底如何。

1、从零搭建待办看板，前后端+数据库全闭环

Prompt：

在一个空目录下，从零搭建一个完整的“待办事项看板”前端+后端，使用FastAPI+React，连接PostgresSQL数据库，实现增删改查。

拿到这一任务后，GLM-5.1和Opus 4.6都进行了初步的项目规划，拆解提示词中的要求，然后再开始开发。值得一提的是，我们用于测试的电脑环境相对老旧，还缺失部分依赖。率先进行开发的GLM-5.1马上定位了这些问题，直接“动手”帮我们装好了。

其实，GLM-5.1和Opus 4.6一开始给出的结果都有点简陋。于是我们向两个模型发送了十几条修改意见，包括要打造完整的导航菜单、配备全局搜索框+通知系统+用户头像、三级分组菜单等等。

GLM-5.1并没有被这一连串的“干扰”打断自己的开发节奏，在多轮需求变更后仍然可以成功交付。最终它打造的任务看板功能完整度较高，交互体验流畅，前后端数据也是联动的——新增的项目的确能在数据库中找到。

网页的UI细节也很到位，字体大小层级分明，光标悬停在卡片上时有微动效，还通过颜色区分了任务的优先级。

再来看看Opus 4.6的表现。在基础功能上，Opus 4.6同样实现了基于数据库的增删改查核心功能，不过网页的色彩选择和UI设计有些单调。

这一表现源于智谱在训练策略上的创新：通过显著扩展任务过程的训练窗口，采用多轮监督微调（multi-turn SFT）与强化学习（RL）结合的训练范式，GLM-5.1得以在完整的任务流程中学习，从“接受任务→规划→执行→调整→交付”的全过程都被纳入学习信号。因此，它不会因新指令的影响，丢掉原本的目标与方向。

2、网络中断+遗留代码+中文乱码：GLM-5.1如何自救？

Prompt：

搭建一个简易的电商后台，需要实现商品管理、订单流程和支付对接。

当AI模型进入企业，面临的往往是更多复杂的不确定性，比如模糊的目标，混乱的项目结构等等。在这些因素的干扰下，GLM-5.1还能稳定交付吗？

GLM-5.1的新任务，是搭建一个简易的电商后台，发送指令后，我们刻意使了点坏，在GLM-5.1快写完项目的时候把网给掐了，并关闭了现有的上下文窗口。重启Claude Code之后，再让它根据之前的项目文件继续开发。

GLM-5.1没有被这一小插曲影响。在告诉它原项目的地址后，GLM-5.1花了3分钟梳理了这个项目的后端部分，然后开始补齐前端缺失的代码。

理解遗留代码是开发的前提，理解程度直接影响着后续的开发质量。在GLM-5.1输出的前端设计框架中，可以看到它对原本的后端代码分析十分到位，不仅准确识别了Express 5+SQLite的技术栈，还敏锐地发现了后端缺少全局支付列表接口这一设计缺陷，并据此提出了“订单列表+展开行加载支付记录”的解决方案。

这得益于GLM-5.1更好的状态延续与上下文整合。面对长时间跨度和大量上下文信息，GLM-5.1能稳定地追踪已完成的内容、当前所处阶段和下一步关键动作，持续整合新信息，保持执行链路的一致性。

在即将完成开发时，GLM-5.1在我们没有要求的情况下，主动检查了后端的API路径，并发现并逐一修复了5个问题。这种“实验→分析→优化”的闭环，正是GLM-5.1能在长任务中始终保持方向不偏、质量统一、无需人工频繁纠偏的重要原因。

最终，GLM-5.1交付了这一电商后台项目，核心功能运转正常，还将后台数据进行了可视化。不过，我们刻意人为动手修改了中文字符的编码，让这一电商后台的中文字符显示为小方块。

为排查这一问题，GLM-5.1进行了29次工具调用，主要都是阅读文件，多工具协同效果稳定。最后，它发现数据库中多处中文字段都是乱码（GBK编码被错误当UTF-8存入），于是很快进行了修复。可以说，GLM-5.1在多轮工具调用和长上下文场景中，表现出工程师般的自主诊断和修复能力。

经历这两个小插曲，GLM-5.1用大概45分钟的时间完成了整个项目的开发，修复后的结果如下。

它交付了整整两个文件夹的成果，算上代码、组件库等等，有数百个文件，大小也来到了40多兆。

拿到同样任务的Opus 4.6，交付的结果如下：

从结果上来看，即便是我们人为给GLM-5.1上强度，它交付的结果也和Opus 4.6的结果保持在相似的水平线上。在保持原有功能、优化代码结构等多重任务中，GLM-5.1仍然完成了高质量的方案设计与执行，充分验证了其在复杂开发和维护任务中的工程化能力。

03.

结语：开源模型长程任务能力突破

从“回答问题”到“交付项目”

顶尖开源模型，正极大地拉近与闭源模型的差距。长程任务是Claude引以为傲的能力之一，模型不仅要会写代码，还要像人一样在数小时内保持目标感、处理意外、自我纠偏、并坚持到最后一刻。

过去，这一直是闭源模型的护城河，也是开源模型难以逾越的分水岭。

智谱称，GLM-5.1是全球第一个在真实工程任务中验证了8小时持续工作能力的开源模型。同时，我们的实测也显示，GLM-5.1不是靠“更长的上下文窗口”去死记硬背，而是真正学会了“规划→执行→检查→修复→交付”的完整工作流。

大模型正在从“回答问题”走向“交付项目”。在这一方向上，GLM-5.1已具备了在真实、混乱、长周期的工程环境中，独立承担任务的底气。

更多>同类资讯

OpenAI豪掷40亿美元入局企业部署，Daybreak助力网络安全新防线

05-12

通用汽车IT部门裁员超600人，为AI人才“腾位”促组织转型

05-12

OpenAI Daybreak项目来袭：AI助力企业软件安全开发全流程升级

05-12

通用汽车IT部门裁员“瘦身” 聚焦AI转型布局未来竞争力

05-12

OpenAI主动开放GPT-5.5Cyber访问权欧盟AI监管迈入“主动协作”新阶段

05-12

中信建投：北美AI算力需求飙升，相关发电设备供应链迎发展机遇

05-12

2026年IPO钟声敲响：第一代机器人公司十年磨剑迎产业大考

05-12

彩电龙头海信另辟蹊径：以显示技术为核，多元布局寻新增长极

05-12

“我是美国佬求大家帮我弄个微信”

05-12

上海开出线下AI应用商店：500+款最新科技产品集中亮相

05-12

彩电巨头海信“另辟蹊径”：以显示技术为翼，寻家电行业新增长点

05-12

理想CTO谢炎：AI浪潮下，汽车计算架构革新，自研芯片如何破局？

05-12

从“天才少年”到创业先锋，丁文超：用具身智能让机器人“挑大梁”

05-12

均胜电子携手恩力动力布局固态电池抢滩具身智能机器人动力能源新蓝海

05-12

节能新篇：机器人技术如何突破能源瓶颈，迈向绿色高效未来

05-12

点击查看更多 +

全站最新

从“验证码车”到爆款黑马：铂智3X如何借中国研发力量逆袭合资新能源赛道

2026年5月8日多款新车齐上市奔驰C级、哈弗大狗PLUS新能源等亮相车市

小米YU7 GT“车厘子红”无伪装路测，5月底发布，跑车级SUV性能强劲

石头科技5月11日股价微跌1.23% 主力资金净流入超两千万引关注

小米YU7新版本车型续航揭晓！电池容量调整预计五月发布或23万起售

莲花跑车战略调整：2028年推V8混动超跑，放弃全面电动化计划

热门内容

本栏最新

通用汽车IT部门裁员超600人，为AI人才“腾位”促组织转型

常州具身智能数据实验平台运营开启真实场景数据采集新阶段

蚂蚁押注大晓机器人：具身智能突破虚拟，在物理世界开启新征程

鹿明机器人获数亿元融资，携手产业方共推具身智能工业场景规模化应用

价格战硝烟弥漫，领跑却凭自研与出海，在中国新能源赛道逆势突围

MG 07官图亮相：轿跑造型吸睛，Momenta R7智驾赋能开启智能新篇

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.