智谱公司在近期宣布了一项重要进展,正式推出了其最新一代的视觉理解模型GLM-4.5V。这款模型是在智谱新一代文本基座模型GLM-4.5-Air的基础上训练而来,拥有惊人的1060亿参数和120亿激活参数,性能卓越。
GLM-4.5V引入了一项创新功能——思考模式开关,这一设计让用户能够自主决定模型是否启动深度思考模式。这一特性赋予了用户更多的控制权,可以根据实际需求灵活调整模型的工作状态。
在视觉能力方面,GLM-4.5V展现出了令人惊叹的表现。例如,它能够准确区分麦当劳和肯德基炸鸡翅的差异,从色泽、外皮质感等多个维度进行了细致入微的分析。GLM-4.5V还擅长看图猜地点,在与人类玩家的竞技中,仅用了7天时间就跻身拍图猜地点积分赛的第66名,超越了绝大多数人类用户,成绩斐然。
为了验证GLM-4.5V的实力,智谱公司在42个基准测试中对其进行了评估。结果显示,GLM-4.5V在41个测试中均超越了同尺寸模型的表现,充分证明了其强大的视觉理解和处理能力。
目前,GLM-4.5V已经在多个开源平台如Hugging Face、魔搭和GitHub上发布,并提供了FP8量化版本,方便开发者进行二次开发和应用。同时,智谱还为其打造了一款体验App,但目前仅支持Mac端(且需为非Intel芯片)用户下载使用。
用户可以通过z.ai平台选择GLM-4.5V模型,上传图片或视频进行体验。在智谱清言APP/网页版上,用户也可以上传图片开启“推理模式”,感受GLM-4.5V的强大功能。智谱还同步开源了一款桌面助手应用,该应用能够实时截屏、录屏,并利用GLM-4.5V处理多种视觉推理任务,如代码辅助、视频内容分析、游戏解答、文档解读等,极大地拓宽了模型的应用场景。
为了方便开发者使用GLM-4.5V,智谱开放平台BigModel.cn已经上线了GLM-4.5V API,并提供了2000万tokens的免费资源包。API的定价也相当亲民,每百万输入tokens仅需2元,每百万输出tokens为6元,支持图像、视频、文件和文本等多种输入方式。
随着GLM-4.5V的推出,智谱公司在视觉理解领域再次迈出了坚实的一步。这款模型凭借其卓越的性能和丰富的功能,无疑将成为开发者们的新宠,推动视觉理解技术不断向前发展。