ITBear旗下自媒体矩阵:

智谱AI推出100B级开源视觉推理模型GLM-4.5V,性能达SOTA水平

   时间:2025-08-12 06:18:26 来源:凤凰网科技编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近期,智谱AI在人工智能领域迈出了重要一步,正式推出了其最新的开源视觉推理模型——GLM-4.5V。这款模型以其庞大的规模,总参数达到106B,激活参数为12B,标志着AI技术在视觉推理方面取得了新的突破。

GLM-4.5V是在智谱AI新一代旗舰文本基座模型GLM-4.5-Air的基础上研发的,沿用了GLM-4.1V-Thinking的技术路线。这一创新模型在41个公开的视觉多模态任务榜单中,综合表现达到了同级别开源模型的顶尖水平(SOTA),覆盖了图像识别、视频理解、文档解析以及GUI Agent等多种应用场景。尤为GLM-4.5V能够针对用户的提问,精确地识别、分析并定位目标物体,同时输出其坐标框,展现了强大的实用性和准确性。

多模态推理被认为是通向通用人工智能(AGI)的重要桥梁,它使AI系统能够像人类一样,综合多种感知信息进行理解和决策。而在这一进程中,视觉-语言模型(Vision-Language Model, VLM)扮演着核心角色。GLM-4.5V的推出,不仅强化了视觉与语言之间的交互能力,也为多模态推理技术的发展奠定了坚实的基础。

为了让更多开发者能够利用这一先进技术,智谱AI决定将GLM-4.5V模型在魔搭社区与Hugging Face平台上进行开源。为了降低使用门槛,API调用的价格也设定得相当亲民,输入价格为2元/M tokens,输出价格为6元/M tokens,这无疑将极大地促进该模型在各个领域的应用和推广。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version