EN
返回资讯列表
模型

百度开源Unlimited-OCR:常数KV cache实现长文档端到端解析,OmniDocBench刷新SOTA

百度近日开源Unlimited-OCR模型,总参数量3B(激活500M),在OmniDocBench v1.6上以93.92%的综合得分刷新端到端OCR SOTA。该模型核心创新是参考滑动窗口注意力(R-SWA),将解码器KV cache从线性增长压缩为常数,使得单次前向推理可转录数十页文档,且延迟和显存占用不随输出长度增加。

技术核心:R-SWA与DeepEncoder

  • R-SWA机制:每个生成token同时关注全部参考token(视觉token和提示词)以及最近输出的128个token,视觉token不参与状态更新,避免特征退化。KV cache大小恒定为参考段长度加滑动窗口宽度,不随序列增长。
  • DeepEncoder:沿用DeepSeek-OCR的编码器,将1024×1024 PDF图像压缩为256个视觉token(16倍压缩),支持Base(固定分辨率)和Gundam(动态分辨率)两种模式。
  • 模型架构:3B总参MoE,500M激活参数,所有注意力层替换为R-SWA。基于DeepSeek-OCR checkpoint续训4000步,使用200万OCR样本(单页:多页=9:1),多页样本随机生成2-50页,序列长度32K。

性能表现:全面SOTA

  • OmniDocBench v1.5:总分93.23%,较DeepSeek-OCR(87.01%)提升6.22个百分点。文本编辑距离从0.073降至0.038,公式CDM从83.37升至92.61,表格TEDS从84.97升至90.93,阅读顺序编辑距离从0.086降至0.045。
  • OmniDocBench v1.6:总分93.92%,端到端SOTA。
  • 长文档测试:20页文档编辑距离0.0572,40+页编辑距离0.1069(Distinct-35达96.90%)。团队指出40+页错误主要源于DeepEncoder多页模式分辨率限制,而非R-SWA问题。
  • 效率:OmniDocBench上TPS达5580(DeepSeek-OCR为4951),输出6144 token时TPS为7847(DeepSeek-OCR为5822),优势随输出长度扩大。

开源与影响

  • 模型权重和代码已开源至GitHub和HuggingFace。
  • R-SWA被设计为通用解码方案,可应用于ASR、翻译等长输出任务,团队计划下一步迁移验证。
  • 论文技术总监署名“YY”,业界推测为前DeepSeek OCR核心作者魏浩然(已离职),其曾主导GOT-OCR2.0和DeepSeek-OCR系列。
  • 百度PaddleOCR的产业基础与前沿研究结合,有望推动OCR从单页识别向整本书理解演进。
2026年6月23日来源:综合整理