ITBear旗下自媒体矩阵:

智谱GLM-4.7-Flash上线:采用MLA架构,苹果M5笔记本本地部署流畅运行

   时间:2026-01-21 00:34:07 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

智谱AI近日推出全新开源轻量级大语言模型GLM-4.7-Flash,这款模型直接取代了前代GLM-4.5-Flash,并宣布其API将免费向公众开放调用。作为GLM-4.7的轻量化版本,GLM-4.7-Flash不仅继承了GLM-4系列在编码和推理方面的核心能力,还在效率上进行了专门优化。

GLM-4.7-Flash采用混合专家(MoE)架构,拥有300亿总参数,但在实际推理过程中仅激活约30亿参数。这种设计使模型在保持强大能力的同时,显著降低了计算开销。模型上下文窗口支持到200K,既可以通过云端API调用,也支持本地部署,为用户提供了更大的灵活性。

在性能评测方面,GLM-4.7-Flash表现突出。在SWE-bench Verified代码修复测试中,该模型取得了59.2分的优异成绩。在“人类最后的考试”等评测中,GLM-4.7-Flash也显著超越了同规模的Qwen3-30B和GPT-OSS-20B等模型。

值得注意的是,GLM-4.7-Flash首次采用了MLA(Multi-head Latent Attention)架构。这一架构此前由DeepSeek-v2率先使用并验证有效,如今智谱AI也将其引入到GLM-4.7-Flash中,进一步提升了模型的性能。从具体结构来看,GLM-4.7-Flash的深度与GLM-4.5 Air和Qwen3-30B-A3B接近,但专家数量有所不同,采用64个专家而非128个,激活时只调用5个(算上共享专家)。

在本地部署方面,GLM-4.7-Flash也表现出色。经开发者实测,在配备32GB统一内存和M5芯片的苹果笔记本上,该模型能够达到43 token/s的速度,为用户提供了流畅的使用体验。官方还第一时间提供了对华为昇腾NPU的支持,进一步拓宽了模型的应用场景。

在API平台方面,官方提供了基础版GLM-4.7-Flash完全免费(限1个并发)的服务,同时高速版GLM-4.7-FlashX的价格也相当亲民。这使得更多用户能够轻松接触到这款强大的大语言模型,促进了其在各个领域的应用和推广。

与同类模型相比,GLM-4.7-Flash在上下文长度支持和输出token价格上具有明显优势。然而,目前该模型在延迟和吞吐量方面还有待进一步优化。尽管如此,GLM-4.7-Flash的推出仍然为大语言模型领域带来了新的活力和可能性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version