智谱公司近日正式推出并开源了其最新研发的GLM-OCR模型,该模型以0.9B的轻量化参数规模,在文档识别领域展现出强劲实力。模型支持vLLM、SGLang和Ollama等多种部署框架,在公式识别、表格解析及信息抽取等核心任务中均达到行业领先水平,多项基准测试成绩刷新最优纪录。
针对实际应用场景的多样化需求,研发团队对手写体识别、复杂表格解析、代码文档处理、印章检测及多语言混排等特殊场景进行了深度优化。在效率测试中,该模型处理PDF文档的吞吐量达到每秒1.86页,通过API调用服务的定价为每百万Tokens仅需0.2元,兼具性能与成本优势。
技术架构方面,GLM-OCR采用"编码器-解码器"双阶段设计,集成自主研发的CogViT视觉编码器,创新性地构建"版面分析→并行识别"的技术流程。这种设计使模型能够同时处理多个识别任务,显著提升复杂文档的处理效率。目前,完整的软件开发工具包(SDK)与推理工具链已同步开源,特别适用于需要高并发处理或边缘计算的场景。
该模型的开源策略引发行业广泛关注,其提供的完整技术方案不仅降低了企业应用门槛,更为学术研究提供了重要参考。通过开放核心代码与工具链,智谱团队为文档智能化处理领域注入了新的发展动力,推动相关技术向更高效、更普惠的方向演进。











