ITBear旗下自媒体矩阵:

智谱GLM-5技术全揭秘:引领AI从氛围编程迈向智能体工程新时代

   时间:2026-02-23 17:51:49 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来重要突破,一款名为GLM-5的新型基础模型正式发布。这款模型通过引入创新的稀疏注意力机制和异步强化学习框架,在编程、推理和智能体能力方面实现了显著提升,标志着人工智能开发范式从"氛围编程"向"智能体工程"的重大转变。

GLM-5在技术架构上进行了全面革新。研发团队开发的DeepSeek Sparse Attention(DSA)机制,通过动态选择重要token进行注意力计算,在保持长上下文处理能力的同时,将计算成本降低了近50%。模型参数规模扩展至7440亿,训练数据量达到28.5万亿token,创下开源模型新纪录。针对智能体任务特点,团队构建了全新的异步强化学习基础设施,将生成过程与训练过程解耦,使后训练迭代效率提升3倍以上。

在基准测试中,GLM-5展现出卓越性能。在Artificial Analysis Intelligence Index v4.0评测中取得50分,成为首个达到该分数的开源模型。在LMArena平台的文本和代码竞技场中均位列开源模型首位,整体表现与Claude Opus 4.5等顶尖闭源模型相当。特别在处理真实软件工程任务时,GLM-5在SWE-bench Verified等基准上超越所有开源基线,接近闭源模型水平。

智能体能力是GLM-5的核心突破。通过提出的异步Agent强化学习算法,模型在长周期任务中的表现得到质的提升。在模拟经营自动售货机的Vending-Bench 2测试中,GLM-5获得4432美元的最终账户余额,逼近Claude Opus 4.5的表现。新开发的上下文管理策略使模型在BrowseComp基准上的准确率提升至75.9%,超越所有配备上下文管理的开源模型。

研发团队构建了全面的评估体系验证模型实用性。CC-Bench-V2基准测试显示,GLM-5在前端开发任务中达到98.0%的构建成功率,检查项成功率与Claude Opus 4.5相当;在后端开发任务中,Pass@1指标与Claude Opus 4.5持平;在长程任务评估中,代码库探索能力显著优于对比模型。这些结果证明GLM-5能够稳定处理真实开发场景中的复杂工作流。

GLM-5的另一个重要特性是全面适配国产算力生态。通过与国内主流芯片厂商深度合作,模型原生支持华为昇腾、摩尔线程、海光等七大硬件平台。针对国产芯片特点优化的量化策略和算子融合技术,使单台国产服务器即可部署7500亿参数模型,长序列处理成本降低50%,性能达到国际主流GPU集群水平。

在真实场景通用能力评估中,GLM-5在机器翻译、多语言对话、指令遵循等五个维度均实现提升。内部测试显示,模型在中文到小语种翻译、复杂指令理解等任务上的表现优于前代版本。特别在工具调用能力方面,通过分析生产环境中的失败案例构建的专项基准测试显示,GLM-5的工具选择准确率和参数正确率均有显著提高。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version