模型

百度开源Unlimited OCR：单次推理解析数十页文档，刷新OmniDocBench SOTA

百度近日开源了全新的OCR模型Unlimited OCR，总参数量3B，激活参数500M，在OmniDocBench v1.5和v1.6上分别取得93.23%和93.92%的综合得分，刷新端到端SOTA。该模型基于DeepSeek OCR架构，核心创新在于提出参考滑动窗口注意力（R-SWA），将解码器KV Cache从线性增长压缩为常数，使得模型能够一次性前向推理解析数十页文档，无需逐页处理。在长文档测试中，20页文档的编辑距离仅0.057，40页以上仍控制在0.107以下。推理速度方面，生成6000 token时TPS相比DeepSeek OCR提升约35%。模型权重和代码已开源在GitHub和Hugging Face。技术报告作者中，技术总监署名“YY”，引发外界猜测其可能为前DeepSeek OCR核心研究员魏浩然。

2026年6月25日来源：综合整理

ocr baidu open-source deepseek attention-mechanism

百度开源Unlimited OCR：单次推理解析数十页文档，刷新OmniDocBench SOTA

Documentation

Getting Started

Learn more