智谱开源GLM-OCR：0.9B参数刷新文档解析榜单，成本仅为传统方案1/10

2026-02-03 13:34

122

2月3日，智谱正式发布并开源GLM-OCR模型。这款仅0.9B参数的轻量级OCR模型，在权威文档解析榜单OmniDocBench V1.5中以94.6分登顶，性能接近Gemini-3-Pro，刷新了小模型在OCR领域的能力上限。

极致轻量，性能不减

GLM-OCR参数量仅0.9B，却在公式识别、表格识别、信息抽取等多项主流基准中取得SOTA表现。模型支持vLLM、SGLang和Ollama部署，适合高并发与边缘部署场景。

六大场景全面领先

智谱针对真实业务痛点进行了深度优化，GLM-OCR在代码文档、复杂表格、手写体、多语言、印章识别、票据提取六大核心场景均取得显著优势，能够精准解析扫描件、PDF及各类票据，有效解决手写、印章、竖排及多语言混排等难题。

速度快，成本低

处理效率方面，GLM-OCR处理PDF文档的吞吐量达1.86页/秒，图片达0.67张/秒，速度显著优于同类模型。

价格方面，API输入输出同价，仅需0.2元/百万Tokens。1元即可处理约2000张A4大小扫描图片或200份10页PDF，成本约为传统OCR方案的1/10。

技术架构

GLM-OCR采用"编码器-解码器"架构，集成了自研的CogViT视觉编码器（400M参数），并在数十亿级图文对数据上进行大规模预训练。模型首次将多Tokens预测损失（MTP）引入OCR训练过程，通过全任务强化学习显著提升了复杂文档场景下的识别精度。

在系统层面，GLM-OCR采用"版面分析→并行识别"的两阶段技术范式，基于PP-DocLayout-V3实现版面分析，确保在复杂版式下的稳定表现。

智谱表示，未来将持续迭代GLM-OCR，推出更多尺寸版本，并将能力延伸至更多语言和视频OCR领域。

好文章，需要你的鼓励