滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

GLM-5.1挑战长程任务：实测中扛住多重考验，表现直逼Claude Opus 4.6

时间：2026-04-08 15:30:40 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

智谱正式推出其最新开源大模型GLM-5.1，这款模型在专业软件开发基准测试SWE-Bench Pro中以58.4分的成绩刷新全球纪录，超越了GPT-5.4、Claude Opus 4.6等闭源模型以及MiniMax M2.7、Kimi K2.5等开源竞品。该模型专为复杂长程任务设计，具备持续自主规划、执行和迭代的能力，能够交付完整的工程结果。

在向量数据库调优任务中，GLM-5.1无需人工干预，通过655轮自主迭代将性能提升至初始水平的3.6倍。更令人瞩目的是，该模型仅凭一张架构草图，连续工作超过8小时，完成1200多个操作步骤，最终输出功能完备的Linux桌面系统。据官方测算，这一成果相当于4人团队连续工作一周的工作量，使其成为全球首个在真实工程场景中验证持续工作能力的开源模型。

发布后迅速引发海外开发者社区热议，相关推文在12小时内阅读量突破200万次，目前累计已达227万次。多位开发者实测后表示，GLM-5.1的使用体验已接近Claude Opus 4.6。AI开发者toli通过对比测试发现，在113个编程任务中，GLM-5.1的表现与Opus 4.6几乎持平，而智谱提供的Coding Plan用量是Claude Code的三倍，价格仅为后者的三分之一。软件定制公司Zenoware创始人JP用该模型一次性完成了10个开发案例，认为其是中国最接近Opus 4.6的模型。

在基准测试中，GLM-5.1展现全面优势：编程能力维度位列全球第三、国产第一、开源第一；设计能力排名第四，与Opus 4.6、Sonnet 4.6同属第一梯队；文本能力则被评为开源模型榜首。这些成绩得益于其创新的训练策略——通过扩展任务过程训练窗口，结合多轮监督微调与强化学习，使模型掌握从任务接收到交付的完整工作流。

实际工程测试进一步验证其可靠性。在搭建待办事项看板的任务中，面对连续十几条需求变更，GLM-5.1始终保持开发节奏，最终交付功能完整、交互流畅的产品，前后端数据联动准确，UI细节处理专业。相比之下，Claude Opus 4.6虽然实现了核心功能，但在色彩选择和界面设计上略显单调。

更严苛的测试场景中，研究人员故意制造网络中断和遗留代码问题，并修改中文字符编码制造乱码。GLM-5.1展现出强大的环境适应能力：网络恢复后迅速梳理项目结构，补全前端代码；精准识别后端技术栈缺陷并提出优化方案；主动排查并修复5个API路径问题；通过29次工具调用定位并解决中文乱码问题。整个过程无需人工干预，最终交付包含数百个文件的完整项目，与Claude Opus 4.6的成果处于同一水平。

这款模型的突破性进展，标志着开源社区在长程任务处理能力上取得重大进展。通过自主规划、持续执行和智能纠偏机制，GLM-5.1成功跨越了从"代码生成"到"项目交付"的关键门槛，为复杂工程场景的AI应用开辟了新路径。其8小时持续工作能力的验证，更重新定义了开源模型在真实业务环境中的价值标准。

06-30

世优科技赋能教育：数字人、动作捕捉与VR课堂共绘智慧校园新图景

在北京景山学校，他们并没有直接部署一个“成品”数字人老师，而是提供了一个低代码平台，让学生们亲自上手，通过“创造校园数字人”项目，自己学习AI技术、设计形象、训练模型。这相当于把技术工具直接交给学生，让他们在…

06-30

OpenAI首款硬件：Codex联名键盘7月登场，助力AI开发

06-30

用户Codex额度消耗速度过快 OpenAI成立“应急小组”

06-30

继天涯后另一“时代的眼泪”回归：西祠胡同7月1日重新上线

06-30

2021-2026年全球及中国工业机器人市场扩张，规模增长前景可期

中商情报网讯：全球工业机器人市场呈现高增长态势。中商产业研究院发布的《2026-2031年全球及中国工业机器人行业深度调查及投融资战略研究报告》显示，全球工业机器人市场规模从2021年的939亿元扩大至20…

06-30

具身智能新突破！「晓途」机器狗进驻上海西岸，赋能城市治理与多元场景应用

依托强大的空间感知、实时研判与动态决策能力，机器狗可在户外复杂开放街区、大型活动场地等多元场景中自主识别环境、规划行进路线、智能避让行人与各类障碍物，全程保持高度自主化作业状态，真正适配开放场景多变的作业需求…

06-30

AGV智能机器人：多场景适配，助力各行业物流传输升级变革

目前这类智能物流传输系统已经在多家上市养殖企业、工业厂区、公共服务机构落地应用，针对养殖场景的疾控需求，设备的密闭传输特性可减少人员跨区域流动带来的疾控风险；针对工业厂区的重型物资搬运需求，设备可稳定运行，…

06-30

贾跃亭宣布FF EAI机器人单月交付破百全年目标提至2000台海外布局加速

基于当前市场需求表现，企业第二次上调全年产销目标，全年EAI机器人出货目标调整至2000台，产品市场落地速度持续超出此前规划。在海外行业展会层面，FF打造的 “全形态 FF EAI机器人世界” 整体亮相Au…

06-30

万亿具身智能浪潮下定制硬件凭模块化与端侧算力重塑机器人产业新格局

当下 AI 产业迎来关键转型，具身智能机器人正从浅层信息交互，全面转向可落地的行动智能，成为拉动行业增长的核心赛道。如今整机批量制造已不再是行业门槛，面向不同行业的场景适配能力，才是区分企业竞争力的核心壁垒，…

06-30

本末科技通过港交所聆讯：直驱技术领航轮足机器人开拓具身智能新路径

依托三大技术平台的底层支撑，本末科技不仅打破了传统机器人的形态边界，更持续放大模组与整机的双向协同效应：模组业务贯穿上下游产业链，整机落地经验则反哺对场景需求的精准洞察，二者相辅相成，支撑公司以可扩展的产品…

06-30

百亿真实运维数据加持，首个AI Infra运维智能体评测基准开源启航

实践表明，相比传统人工运维，智能体显著提升了整体运维效率：工单平均处理时长缩短 50%，关键故障处理效率提升约 6倍；运维人员得以从重复性的排查工作中解放，人效提升 5 倍以上，综合运维成本下降约 30%，…

06-30

SEMI报告：AI驱动需求，全球12英寸晶圆厂存储设备支出将连年攀升

06-30

承载青春记忆的西祠胡同焕新归来，2026年7月1日全新上线再续情怀

06-30

智谱唐杰深度剖析：AI时代企业成功新密码认知格局技术管理谁为先

06-30

点击查看更多 +

全站最新

地平线HSD V2.0：以迭代效率与双引擎驱动，开启智驾自主进化新篇章

短途电动车怎么选不踩坑？按需挑选这三类，轻松省下冤枉钱！

HSD V2.0迭代升级：以世界模型与强化学习开启智驾自主进化新篇

Jeep未来四年规划曝光：推三款新车布局欧洲与东风共铸大型SUV

晟兴电话机器人助力资料补全：小步试跑精准优化，让人机协作更高效自然

2026汽车音响低音炮升级指南：新能源与MPV低频优化服务商如何选？

热门内容

本栏最新

世优科技赋能教育：数字人、动作捕捉与VR课堂共绘智慧校园新图景

晟兴电话机器人助力资料补全：小步试跑精准优化，让人机协作更高效自然

晟兴电话机器人助力资料补全：小步试跑精准优化，让人机协作更高效

晟兴电话机器人通知确认：把握语气要点，做好场景规划与细节优化

股东会亮出“价值底牌”，长城汽车引领行业跳出“销量陷阱”

华为杨扬：借AI焕新产品服务携手各方推动Token经营价值提升

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.