智谱近日正式推出并开源其最新旗舰模型GLM-5.1,这一消息引发二级市场强烈反应。港股开盘后,智谱股价迅速攀升,最高涨幅接近18%,触及925港元关口,截至当日收盘仍保持13.48%的涨幅。作为全球首个在真实工程场景中验证8小时持续工作能力的开源模型,GLM-5.1突破了传统大模型以分钟级交互为主的局限,标志着AI模型从短时任务处理向长程自主工作的范式转变。
该模型的核心突破在于其长程任务处理能力。在单次任务中,GLM-5.1可连续工作超8小时,期间自主完成规划、执行、测试、策略调整及错误修复等全流程,最终交付符合工程标准的完整成果。这种能力使其区别于现有模型,更接近人类工程师的"实验-分析-优化"闭环思维。智谱方面强调,模型在GPU内核优化等复杂场景中已展现出端到端自主工作能力,显著降低了对专家经验的依赖。
技术验证数据显示,GLM-5.1在KernelBench Level 3基准测试中表现卓越。面对50个真实机器学习计算负载,该模型在24小时不间断迭代中完成多轮编译-测试-分析-重写循环,最终实现3.6倍几何平均加速比,较传统torch.compile模式提升141%。这一成果证明AI模型已具备从代码生成向系统级优化的能力跃迁,为高性能计算领域突破工程效率瓶颈提供了新路径。
在代码能力维度,GLM-5.1继续保持行业领先地位。其在SWE-bench Pro、Terminal-Bench、NL2Repo三大权威基准测试中取得综合平均分全球第三、国产第一、开源第一的佳绩。特别在SWE-bench Pro真实软件开发测试中,该模型首次超越海外头部模型Opus 4.6,刷新全球最佳纪录。这些突破使GLM-5.1成为首个在核心场景实现与海外顶尖模型性能对齐的国产大模型。
市场策略方面,智谱同步调整了GLM-5.1的定价体系。模型聚合平台OpenRouter数据显示,其Coding场景缓存命中Token价格上调10%,已接近Anthropic旗下Claude Sonnet4.6水平。这一调整标志着国产大模型从价格战转向价值竞争的转折点——一年前行业普遍通过降价90%争夺市场,如今已具备以性能溢价锚定国际基准的实力。
尽管取得突破,智谱坦言长程任务处理仍面临多重技术挑战。包括如何缓解复杂任务中的上下文焦虑、如何维持数千次工具调用后的执行一致性、如何突破局部最优解陷阱,以及在缺乏明确数值指标的任务中建立可靠自评估机制等。公司表示,GLM-5.1是该技术路线的重要里程碑,未来将持续优化模型的有效工作时长与自主进化能力。










