智谱AI近期震撼发布并开放了其最新一代视觉推理模型GLM-4.5V,该模型在41项公开视觉多模态基准测试中,展现出了与当前顶尖开源模型相媲美的卓越性能。GLM-4.5V已在GitHub、Hugging Face及魔搭社区上线,遵循MIT开源协议,对商业使用持开放态度。
GLM-4.5V是一款视觉-语言模型(VLM),拥有惊人的1,060亿总参数与120亿激活参数,其基础源自智谱此前推出的旗舰文本模型GLM-4.5-Air,并沿用了GLM-4.1V-Thinking的技术脉络。这款模型不仅在技术上继承了前辈的优势,更在此基础上实现了跨越性的进步。
从架构上看,GLM-4.5V由视觉编码器、MLP适配器及语言解码器三大模块构成。通过引入三维旋转位置编码(3D-RoPE),模型对多模态信息中的三维空间关系有了更深的理解和推理能力。它支持处理高达64K tokens的多模态长上下文输入,并运用三维卷积技术,极大地提升了视频处理的效率。这些创新设计使得GLM-4.5V不仅能够处理静态图像,还能深入理解视频内容,对于高分辨率及极端宽高比的图像同样表现出色。
为了进一步提升多模态能力,智谱在GLM-4.5V的训练过程中实施了多重优化策略。在预训练阶段,模型接触了大量图文交错的多模态语料及长上下文内容,为其打下了坚实的复杂图文和视频理解能力基础。进入监督微调(SFT)阶段,模型接受了显式“思维链”格式训练样本的洗礼,旨在深化其因果推理和多模态理解能力。最终,在强化学习(RL)阶段,通过构建多领域奖励系统,并结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V在科学、技术、工程、数学(STEM)问题、多模态定位及智能体任务等方面均实现了显著优化。
GLM-4.5V的官方演示充分展示了其全场景覆盖的视觉推理能力。在图像推理方面,它能够进行复杂的场景解析和多图综合分析。例如,根据用户的自然语言提问,模型能准确识别图像中的目标物体,并给出精确的位置坐标。甚至在缺乏外部搜索工具的情况下,它也能通过分析图像中的植被、气候痕迹、建筑风格等细节,推断出照片的拍摄地点及大致经纬度。在一项与人类玩家的对比测试中,GLM-4.5V在“图寻游戏”全球积分赛中,短时间内击败了绝大多数人类玩家,并迅速攀升至全球排名前列。
在复杂文档理解领域,GLM-4.5V同样表现出色。它能够处理包含大量图表、长达数十页的复杂长文本,通过类似人类的视觉方式逐页读取,实现文字与图像信息的同步理解,从而更精准地进行内容总结、翻译及图表信息提取,有效规避了传统OCR信息提取结合文本模型分析流程中可能出现的错误传递问题。
针对前端开发与用户界面交互任务,GLM-4.5V提供了“前端复刻”功能。它能够分析网页截图甚至交互视频,并生成相应的结构化HTML、CSS和Javascript代码,精准复刻网页的布局、样式乃至动态交互逻辑。在实际测试中,GLM-4.5V成功复刻了谷歌学术首页的整体UI效果,尽管在细微交互功能上略有不足,但整体表现已相当出色。
GLM-4.5V的GUI Agent能力使其能够识别和处理电子屏幕画面,执行对话问答、图标定位等任务,为开发能够辅助操作桌面环境的智能体应用奠定了坚实基础。智谱还同步开源了一款桌面助手应用,该应用能够实时截屏、录屏获取屏幕信息,依托GLM-4.5V处理多种视觉推理任务,涵盖代码辅助、视频内容分析、游戏解答、文档解读等多类应用场景。