ITBear旗下自媒体矩阵:

智谱发布开源GLM-OCR模型:0.9B轻量参数,多场景优化效率高

   时间:2026-02-03 10:04:51 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

智谱公司近日正式推出并开源了其最新研发的GLM-OCR模型,该模型以0.9B的轻量化参数规模,在文档识别领域展现出强劲实力。模型支持vLLM、SGLang和Ollama等多种部署框架,在公式识别、表格解析及信息抽取等核心任务中均达到行业领先水平,多项基准测试成绩刷新最优纪录。

针对实际应用场景的多样化需求,研发团队对手写体识别、复杂表格解析、代码文档处理、印章检测及多语言混排等特殊场景进行了深度优化。在效率测试中,该模型处理PDF文档的吞吐量达到每秒1.86页,通过API调用服务的定价为每百万Tokens仅需0.2元,兼具性能与成本优势。

技术架构方面,GLM-OCR采用"编码器-解码器"双阶段设计,集成自主研发的CogViT视觉编码器,创新性地构建"版面分析→并行识别"的技术流程。这种设计使模型能够同时处理多个识别任务,显著提升复杂文档的处理效率。目前,完整的软件开发工具包(SDK)与推理工具链已同步开源,特别适用于需要高并发处理或边缘计算的场景。

该模型的开源策略引发行业广泛关注,其提供的完整技术方案不仅降低了企业应用门槛,更为学术研究提供了重要参考。通过开放核心代码与工具链,智谱团队为文档智能化处理领域注入了新的发展动力,推动相关技术向更高效、更普惠的方向演进。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version