EN
返回资讯列表
模型

百度开源Unlimited OCR:单次推理解析数十页文档,刷新OmniDocBench SOTA

百度近日开源了全新的OCR模型Unlimited OCR,总参数量3B,激活参数500M,在OmniDocBench v1.5和v1.6上分别取得93.23%和93.92%的综合得分,刷新端到端SOTA。该模型基于DeepSeek OCR架构,核心创新在于提出参考滑动窗口注意力(R-SWA),将解码器KV Cache从线性增长压缩为常数,使得模型能够一次性前向推理解析数十页文档,无需逐页处理。在长文档测试中,20页文档的编辑距离仅0.057,40页以上仍控制在0.107以下。推理速度方面,生成6000 token时TPS相比DeepSeek OCR提升约35%。模型权重和代码已开源在GitHub和Hugging Face。技术报告作者中,技术总监署名“YY”,引发外界猜测其可能为前DeepSeek OCR核心研究员魏浩然。

2026年6月25日来源:综合整理