ITBear旗下自媒体矩阵:

智谱发布GLM-4.1V-Thinking大模型,获浦东创投、张江集团10亿战略投资

   时间:2025-07-02 14:24:35 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

在上海浦东张江科学会堂,一场聚焦于人工智能前沿技术的盛会——智谱开放平台产业生态大会圆满举行。会上,智谱公司震撼发布了其最新科研成果,一款名为GLM-4.1V-Thinking的新一代通用视觉语言模型。

本次大会不仅见证了技术的革新,还迎来了资本的重磅加持。智谱公司宣布,浦东创投集团与张江集团将共同向其注入总额高达10亿元的战略投资,且首笔资金已顺利交割。三方携手启动了一项旨在构建人工智能新型基础设施的合作项目,为人工智能的未来发展奠定了坚实基础。

GLM-4.1V-Thinking模型是智谱公司精心打造的一款多模态输入通用推理型大模型,专为应对复杂认知任务而生。它不仅能够处理图像、视频、文档等多种数据类型,还在GLM-4V架构的基础上融入了创新的“思维链推理机制”,通过“课程采样强化学习策略”,显著提升了模型的跨模态因果推理能力和运行稳定性。

值得注意的是,GLM-4.1V-Thinking的轻量版——GLM-4.1V-9B-Thinking,在保持模型参数控制在10B级别的同时,实现了性能上的重大突破。在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,该模型取得了23项10B级模型的最佳成绩,其中有18项表现甚至与参数量高达72B的Qwen-2.5-VL相当或更优,充分证明了其在小体积下展现出的极限性能潜力。

GLM-4.1V-9B-Thinking模型在多个任务领域均展现出卓越的通用性和稳健性。在图文理解方面,它能够精准识别并综合分析图像与文本信息;在数学与科学推理领域,它支持复杂题解、多步演绎与公式理解;在视频理解方面,它具备时序分析与事件逻辑建模能力;在GUI与网页智能体任务中,它能够理解界面结构,辅助自动化操作;在视觉锚定与实体定位方面,它实现了语言与图像区域的精准对齐,极大地提升了人机交互的可控性。

为了让更多研究者能够探索视觉语言模型的能力边界,GLM-4.1V-9B-Thinking已在Hugging Face与魔搭社区同步开源。开源的版本包括GLM-4.1V-9B-Base基座模型和具备深度思考和推理能力的GLM-4.1V-9B-Thinking模型,用户可正常使用和体验后者。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version