近日百度正式开源端到端 OCR 模型 Unlimited OCR,凭借独创的参考滑动窗口注意力(R-SWA)机制,在 OmniDocBench 基准测试中刷新全球 SOTA 纪录,首次实现 40 页以上文档连续解析无质量衰减,打破了传统 OCR 逐页处理、上下文断裂的行业痛点。这款模型不仅刷新了文档解析的精度与效率上限,更提出了 “软遗忘” 的长上下文优化思路,具备向更多长序列 AI 场景迁移的潜力。
一、传统长文档 OCR 的固有瓶颈:逐页拼接只是权宜之计
传统端到端 OCR 采用 “视觉编码 + 文本解码” 的标准架构,解码器依赖全量注意力机制,每生成一个 token 都需要回看所有历史输出。
这直接导致文档越长,KV 缓存体积越会呈线性膨胀,显存占用与计算开销持续攀升,最终限制了单次解析的文档长度。为了绕过这个限制,行业普遍采用 “逐页处理 + 结果拼接” 的工程方案,也就是 for-loop 模式:每处理完一页就重置上下文,最后通过外部程序拼接多页结果。
这种方案虽然能在工程上实现长文档处理,但本质只是权宜之计,不仅存在跨页上下文断裂、逻辑衔接误差等问题,还会随着页数增加出现速度递减、错误累积等缺陷,始终无法实现真正的连续阅读体验。
二、R-SWA 核心机制:模拟人类软遗忘,恒定显存实现长程解析
Unlimited OCR 的核心突破,是提出了参考滑动窗口注意力(R-SWA)机制,其设计灵感源自人类抄录长文档的认知规律 —— 人不会每写一个字就回溯全书内容,只会摊开完整的原文随时查阅,同时手边只保留最近写下的几行内容用来追踪进度,更早的信息自然淡出工作记忆,也就是 “软遗忘”。
对应到技术实现上,模型将信息分为两类处理:
一是参考 token,包含全部视觉 token 与提示词,全程完整保留不参与滑动,确保原图信息始终清晰;
二是输出侧的历史 token,仅保留最近 128 个参与注意力计算,用来追踪解析进度。
与之配套,KV 缓存被设计为固定长度的队列,每生成新 token 就自动淘汰最旧的状态,无论输出几千还是几万个 token,显存占用始终保持恒定。和传统方案相比,R-SWA 既避免了全注意力的缓存无限膨胀,也解决了普通滑动窗口早期视觉信息丢失、越读越模糊的问题,真正实现了 “全程看得见原文,进度不中断” 的连续解析体验。
三、性能实测:精度效率双领先,40 页文档稳定输出
多项权威测试验证了 Unlimited OCR 的硬实力。
在通用文档解析基准 OmniDocBench v1.5 上,模型取得 93.23% 的综合得分,较此前的标杆 DeepSeek OCR 提升 6.22 个百分点;
在更新的 v1.6 版本中,得分进一步达到 93.92%,稳居当前全球端到端 OCR 榜首。
长文档专项测试中,模型一次性输入 40 页以上内容仍表现稳定,Distinct-35 重复度指标达到 96.9%,文本编辑距离始终控制在 0.1069 以下,没有出现内容混淆、质量下降的问题。效率层面,生成 6000token 时推理速度较 DeepSeek OCR 提升约 35%,且延迟不随文档长度增长,彻底解决了长文档场景下越读越慢的行业通病。
四、行业价值:不止于 OCR,开辟长上下文技术新路线
从产业视角看,Unlimited OCR 的价值早已超出单一工具范畴。
当下 OCR 正从传统文字识别工具,升级为 AI 时代的核心数据入口 —— 海量沉睡在 PDF、合同、票据、扫描件中的非结构化数据,可通过端到端 OCR 转化为模型可理解的结构化 token,成为企业大模型应用的重要数据燃料。更深远的意义在于技术范式的创新。
过往长上下文优化的主流思路是持续扩容窗口,从 128K 到 1M 不断堆砌上下文长度;而 R-SWA 提供了另一种解题方向:让模型学会合理遗忘,而非记住所有信息。这套注意力机制具备极强的通用性,未来可迁移至语音识别、机器翻译等更多长序列任务,为长时推理场景提供全新的技术路径。按照团队规划,后续将把上下文窗口拓展至 128K,并研发预填池机制实现按需调取历史状态,持续探索长程智能的边界。
整体而言,Unlimited OCR 既是国产 OCR 技术的又一里程碑,也为大模型长上下文优化提供了差异化的思路,印证了国产 AI 团队在基础机制创新上的持续突破。