智谱近日正式推出并开源了GLM-4.6V系列多模态大模型,为人工智能领域注入新的技术活力。该系列包含两个版本:面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B),以及专为本地部署和低延迟应用设计的轻量版GLM-4.6V-Flash(9B)。这一举措不仅丰富了多模态模型的技术生态,也为不同场景的用户提供了更灵活的选择。
在技术层面,GLM-4.6V实现了显著突破。其训练时的上下文窗口扩展至128k tokens,大幅提升了模型对长文本的处理能力。在视觉理解精度方面,该模型达到了同参数规模下的最优水平(SOTA),为复杂视觉任务提供了更可靠的支撑。更值得关注的是,GLM-4.6V首次将Function Call(工具调用)能力原生集成至视觉模型架构中,构建了从“视觉感知”到“可执行行动(Action)”的完整链路。这一创新为多模态智能体(Agent)在真实业务场景中的应用奠定了统一的技术基础。
在商业化应用方面,GLM-4.6V系列展现了极高的性价比。相较于前代GLM-4.5V,新系列的API调用价格降低了50%,具体为输入1元/百万tokens、输出3元/百万tokens。其中,轻量版GLM-4.6V-Flash更以免费形式向用户开放,进一步降低了技术门槛。该系列模型还融入了GLM Coding Plan,针对用户高频使用的8类场景,定向开发了专用MCP(大模型上下文协议)工具,显著提升了模型在特定任务中的执行效率。










