百度 Unlimited OCR 开源登顶：R-SWA 机制破解长文档难题重塑长上下文技术范式

2026-06-23 20:58

近日百度正式开源端到端 OCR 模型 Unlimited OCR，凭借独创的参考滑动窗口注意力（R-SWA）机制，在 OmniDocBench 基准测试中刷新全球 SOTA 纪录，首次实现 40 页以上文档连续解析无质量衰减，打破了传统 OCR 逐页处理、上下文断裂的行业痛点。这款模型不仅刷新了文档解析的精度与效率上限，更提出了 “软遗忘” 的长上下文优化思路，具备向更多长序列 AI 场景迁移的潜力。

百度 Unlimited OCR 开源登顶：R-SWA 机制破解长文档难题重塑长上下文技术范式

一、传统长文档 OCR 的固有瓶颈：逐页拼接只是权宜之计

传统端到端 OCR 采用 “视觉编码 + 文本解码” 的标准架构，解码器依赖全量注意力机制，每生成一个 token 都需要回看所有历史输出。

这直接导致文档越长，KV 缓存体积越会呈线性膨胀，显存占用与计算开销持续攀升，最终限制了单次解析的文档长度。为了绕过这个限制，行业普遍采用 “逐页处理 + 结果拼接” 的工程方案，也就是 for-loop 模式：每处理完一页就重置上下文，最后通过外部程序拼接多页结果。

这种方案虽然能在工程上实现长文档处理，但本质只是权宜之计，不仅存在跨页上下文断裂、逻辑衔接误差等问题，还会随着页数增加出现速度递减、错误累积等缺陷，始终无法实现真正的连续阅读体验。

二、R-SWA 核心机制：模拟人类软遗忘，恒定显存实现长程解析

Unlimited OCR 的核心突破，是提出了参考滑动窗口注意力（R-SWA）机制，其设计灵感源自人类抄录长文档的认知规律 —— 人不会每写一个字就回溯全书内容，只会摊开完整的原文随时查阅，同时手边只保留最近写下的几行内容用来追踪进度，更早的信息自然淡出工作记忆，也就是 “软遗忘”。

对应到技术实现上，模型将信息分为两类处理：

一是参考 token，包含全部视觉 token 与提示词，全程完整保留不参与滑动，确保原图信息始终清晰；

二是输出侧的历史 token，仅保留最近 128 个参与注意力计算，用来追踪解析进度。

与之配套，KV 缓存被设计为固定长度的队列，每生成新 token 就自动淘汰最旧的状态，无论输出几千还是几万个 token，显存占用始终保持恒定。和传统方案相比，R-SWA 既避免了全注意力的缓存无限膨胀，也解决了普通滑动窗口早期视觉信息丢失、越读越模糊的问题，真正实现了 “全程看得见原文，进度不中断” 的连续解析体验。

三、性能实测：精度效率双领先，40 页文档稳定输出

多项权威测试验证了 Unlimited OCR 的硬实力。

在通用文档解析基准 OmniDocBench v1.5 上，模型取得 93.23% 的综合得分，较此前的标杆 DeepSeek OCR 提升 6.22 个百分点；

在更新的 v1.6 版本中，得分进一步达到 93.92%，稳居当前全球端到端 OCR 榜首。

长文档专项测试中，模型一次性输入 40 页以上内容仍表现稳定，Distinct-35 重复度指标达到 96.9%，文本编辑距离始终控制在 0.1069 以下，没有出现内容混淆、质量下降的问题。效率层面，生成 6000token 时推理速度较 DeepSeek OCR 提升约 35%，且延迟不随文档长度增长，彻底解决了长文档场景下越读越慢的行业通病。

四、行业价值：不止于 OCR，开辟长上下文技术新路线

从产业视角看，Unlimited OCR 的价值早已超出单一工具范畴。

当下 OCR 正从传统文字识别工具，升级为 AI 时代的核心数据入口 —— 海量沉睡在 PDF、合同、票据、扫描件中的非结构化数据，可通过端到端 OCR 转化为模型可理解的结构化 token，成为企业大模型应用的重要数据燃料。更深远的意义在于技术范式的创新。

过往长上下文优化的主流思路是持续扩容窗口，从 128K 到 1M 不断堆砌上下文长度；而 R-SWA 提供了另一种解题方向：让模型学会合理遗忘，而非记住所有信息。这套注意力机制具备极强的通用性，未来可迁移至语音识别、机器翻译等更多长序列任务，为长时推理场景提供全新的技术路径。按照团队规划，后续将把上下文窗口拓展至 128K，并研发预填池机制实现按需调取历史状态，持续探索长程智能的边界。

整体而言，Unlimited OCR 既是国产 OCR 技术的又一里程碑，也为大模型长上下文优化提供了差异化的思路，印证了国产 AI 团队在基础机制创新上的持续突破。

好文章，需要你的鼓励

百度 Unlimited OCR 开源登顶：R-SWA 机制破解长文档难题 重塑长上下文技术范式

一、传统长文档 OCR 的固有瓶颈：逐页拼接只是权宜之计

二、R-SWA 核心机制：模拟人类软遗忘，恒定显存实现长程解析

三、性能实测：精度效率双领先，40 页文档稳定输出

四、行业价值：不止于 OCR，开辟长上下文技术新路线

百度 Unlimited OCR 开源登顶：R-SWA 机制破解长文档难题重塑长上下文技术范式