智谱AI正式推出并开源GLM-4.6V系列多模态大模型,该系列包含两个版本:面向云端与高性能集群的GLM-4.6V(106B-A12B)基础版,以及适配本地部署与低延迟场景的GLM-4.6V-Flash(9B)轻量版。此次发布标志着GLM系列在多模态技术领域实现重要突破,通过原生集成工具调用能力,为复杂视觉任务提供更高效的解决方案。
新模型在技术架构上实现三大创新:首先将训练上下文窗口扩展至128k tokens,显著提升长文本处理能力;其次在视觉理解精度方面达到同参数规模模型的领先水平;最关键的是首次将Function Call(工具调用)能力原生融入视觉模型架构,构建起从视觉感知到可执行行动的完整链路。这种设计使得模型能够直接处理图像、文档等多模态输入,无需中间文本转换环节,有效减少信息损耗。
在性能优化方面,GLM-4.6V系列展现出显著优势。相较于前代GLM-4.5V,新系列API调用价格下降50%,输入成本降至1元/百万tokens,输出成本为3元/百万tokens。其中GLM-4.6V-Flash版本更提供免费使用权限,大幅降低开发者的接入门槛。同时,该系列已整合至GLM Coding Plan,针对八大类应用场景开发专用MCP工具,模型可自动匹配最优接口进行调用。
技术文档显示,GLM-4.6V构建了原生多模态工具调用框架:输入端支持图像、截图、文档页面等直接作为参数传入,输出端可对统计图表、网页截图、商品图片等结果进行二次视觉理解。这种闭环设计使模型能够处理图文混排输出、商品识别推荐等复杂任务,在辅助型Agent场景中表现尤为突出。例如在电商领域,模型可同时完成商品识别、价格比对和推荐理由生成等操作。
权威评测数据验证了模型性能:在MMBench、MathVista、OCRBench等30余个主流多模态基准测试中,新模型较上一代取得全面提升。同等参数规模下,GLM-4.6V在多模态交互、逻辑推理和长上下文处理等关键指标上达到行业领先水平。具体对比显示,9B版本的GLM-4.6V-Flash整体表现优于Qwen3-VL-8B,而106B参数(12B激活)的GLM-4.6V性能可与参数规模达235B的Qwen3-VL-235B相媲美。
为促进技术生态发展,智谱AI同步开放了GLM-4.6V的完整技术资源,包括模型权重、推理代码和示例工程。开发者可通过GitHub、Hugging Face和魔搭社区三大平台获取相关资源,具体地址分别为:https://github.com/zai-org/GLM-V、https://huggingface.co/collections/zai-org/glm-46v、https://modelscope.cn/collections/GLM-46V-37fabc27818446。此举将加速多模态技术在智能客服、内容创作、工业检测等领域的落地应用。











