百度开源 PaddleOCR-VL-1.5：全球首破异形框定位难题，OCR 精度登顶全球

2026-01-30 20:37

126

1月29日，百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以0.9B轻量参数架构，在全球权威文档解析评测OmniDocBench V1.5中斩获综合性能第一（整体精度94.5%），超越Gemini-3-Pro、DeepSeek-OCR2、GPT-5.2等主流模型，更全球首次实现OCR“异形框定位”能力，彻底解决“歪文档、变形文档”识别难题，推动OCR技术从“规整场景可用”迈向“真实场景规模化落地”。

一、核心突破：全球首创“异形框定位”，攻克真实场景痛点

传统OCR模型仅能识别扫描仪生成的规整文档，面对移动拍照、扫描件变形、复杂光照等真实场景中的“非规则文档”（如倾斜、弯折、拍照畸变）时，常因结构识别失败导致文字“认得对、理不清”。

PaddleOCR-VL-1.5通过创新算法，全球首次实现异形框定位能力：

可精准识别倾斜（任意角度）、弯折（含折痕遮挡）、拍照畸变（透视偏差）的文档形态；

解决“文档形变导致的结构断裂”问题，例如褶皱的金融票据、弯折的古籍文献、倾斜的政务表单，均能稳定解析，识别成功率较传统模型提升60%以上；

应用场景直接覆盖：金融票据自动录入（如褶皱支票识别）、档案数字化（古籍/旧文件扫描）、政务文档流转（移动端拍照提交表单）。

二、性能霸榜：OmniDocBench V1.5多项指标全球第一

基于文心大模型技术底座，PaddleOCR-VL-1.5在权威评测中全面领先，尤其在“复杂文档结构理解”上优势显著：

其轻量特性（0.9B参数）更打破“高性能必靠大参数”的认知，可在消费级硬件（如普通服务器、边缘设备）上流畅运行，降低产业落地的算力成本。

三、功能升级：从“单文本识别”到“全场景文档解析”

相较于2025年10月发布的初代PaddleOCR-VL（曾登顶HuggingFace/ModelScope双榜第一），1.5版本在功能上实现全维度扩展：

多任务集成：新增印章识别、文本检测与识别一体化能力，无需多模型串联，可一次性完成“文档扫描→文本提取→印章定位→结构还原”；

特殊场景优化：

文字识别：强化生僻字、古籍异体字识别，准确率提升至98.2%；

格式适配：支持多语种表格（含藏语、孟加拉语等新增语种）、下划线/复选框等复杂结构，解决“小元素漏识别”问题；

长文档处理：支持跨页表格自动合并、跨页段落标题识别，避免长文档（如多页财报、合同）解析时的“结构断裂”。

四、行业背景：OCR赛道竞争加剧，技术向“产业落地”聚焦

近半年，全球头部厂商密集布局OCR领域，赛道从“通用能力比拼”转向“垂直场景深耕”：

1月27日：深度求索发布DeepSeek-OCR2，引入“因果流查询”机制，OmniDocBench V1.5精度达91.09%；

同期：Mistral AI、字节跳动、腾讯相继推出新一代OCR模型，均聚焦“复杂场景适配”；

行业趋势：随着大模型进入金融、政务、制造等领域，OCR技术已从“能用”转向“稳定可规模化”，PaddleOCR-VL-1.5的开源与工程化优化，正降低产业应用门槛（如中小企业无需自研，可直接调用API）。

五、开源与体验：多渠道开放，开发者零门槛接入

PaddleOCR-VL-1.5已全面开源，支持开发者与企业快速落地：

开源渠道：GitHub、Hugging Face可直接获取模型权重与代码；

在线体验：通过PaddleOCR官网上传文档，实时查看解析效果；

企业级服务：百度智能云千帆平台提供API接口，支持高并发调用（如金融机构批量票据处理）。

PaddleOCR-VL-1.5的发布，不仅以“异形框定位”突破技术边界，更以“轻量架构+全场景功能”推动OCR从“实验室技术”走向“产业生产线”。其开源策略进一步激活开发者生态，尤其对金融、政务等“文档密集型行业”，将显著降低人工录入成本（预计单场景人力成本减少40%-70%），成为中国AI垂直赛道“解决实际问题、创造业务价值”的典型标杆。

好文章，需要你的鼓励