近期,智谱AI在人工智能领域迈出了重要一步,正式推出了其最新的开源视觉推理模型——GLM-4.5V。这款模型以其庞大的规模,总参数达到106B,激活参数为12B,标志着AI技术在视觉推理方面取得了新的突破。
GLM-4.5V是在智谱AI新一代旗舰文本基座模型GLM-4.5-Air的基础上研发的,沿用了GLM-4.1V-Thinking的技术路线。这一创新模型在41个公开的视觉多模态任务榜单中,综合表现达到了同级别开源模型的顶尖水平(SOTA),覆盖了图像识别、视频理解、文档解析以及GUI Agent等多种应用场景。尤为GLM-4.5V能够针对用户的提问,精确地识别、分析并定位目标物体,同时输出其坐标框,展现了强大的实用性和准确性。
多模态推理被认为是通向通用人工智能(AGI)的重要桥梁,它使AI系统能够像人类一样,综合多种感知信息进行理解和决策。而在这一进程中,视觉-语言模型(Vision-Language Model, VLM)扮演着核心角色。GLM-4.5V的推出,不仅强化了视觉与语言之间的交互能力,也为多模态推理技术的发展奠定了坚实的基础。
为了让更多开发者能够利用这一先进技术,智谱AI决定将GLM-4.5V模型在魔搭社区与Hugging Face平台上进行开源。为了降低使用门槛,API调用的价格也设定得相当亲民,输入价格为2元/M tokens,输出价格为6元/M tokens,这无疑将极大地促进该模型在各个领域的应用和推广。