返回资讯列表

模型

百度开源Unlimited-OCR：常数KV cache实现长文档端到端解析，OmniDocBench刷新SOTA

百度近日开源Unlimited-OCR模型，总参数量3B（激活500M），在OmniDocBench v1.6上以93.92%的综合得分刷新端到端OCR SOTA。该模型核心创新是参考滑动窗口注意力（R-SWA），将解码器KV cache从线性增长压缩为常数，使得单次前向推理可转录数十页文档，且延迟和显存占用不随输出长度增加。

技术核心：R-SWA与DeepEncoder

R-SWA机制：每个生成token同时关注全部参考token（视觉token和提示词）以及最近输出的128个token，视觉token不参与状态更新，避免特征退化。KV cache大小恒定为参考段长度加滑动窗口宽度，不随序列增长。
DeepEncoder：沿用DeepSeek-OCR的编码器，将1024×1024 PDF图像压缩为256个视觉token（16倍压缩），支持Base（固定分辨率）和Gundam（动态分辨率）两种模式。
模型架构：3B总参MoE，500M激活参数，所有注意力层替换为R-SWA。基于DeepSeek-OCR checkpoint续训4000步，使用200万OCR样本（单页:多页=9:1），多页样本随机生成2-50页，序列长度32K。

性能表现：全面SOTA

OmniDocBench v1.5：总分93.23%，较DeepSeek-OCR（87.01%）提升6.22个百分点。文本编辑距离从0.073降至0.038，公式CDM从83.37升至92.61，表格TEDS从84.97升至90.93，阅读顺序编辑距离从0.086降至0.045。
OmniDocBench v1.6：总分93.92%，端到端SOTA。
长文档测试：20页文档编辑距离0.0572，40+页编辑距离0.1069（Distinct-35达96.90%）。团队指出40+页错误主要源于DeepEncoder多页模式分辨率限制，而非R-SWA问题。
效率：OmniDocBench上TPS达5580（DeepSeek-OCR为4951），输出6144 token时TPS为7847（DeepSeek-OCR为5822），优势随输出长度扩大。

开源与影响

模型权重和代码已开源至GitHub和HuggingFace。
R-SWA被设计为通用解码方案，可应用于ASR、翻译等长输出任务，团队计划下一步迁移验证。
论文技术总监署名“YY”，业界推测为前DeepSeek OCR核心作者魏浩然（已离职），其曾主导GOT-OCR2.0和DeepSeek-OCR系列。
百度PaddleOCR的产业基础与前沿研究结合，有望推动OCR从单页识别向整本书理解演进。

2026年6月23日来源：综合整理

ocr baidu open-source sota attention-mechanism

相关资讯

Kimi K2.7 Code 发布：代码与Agent能力提升，Token消耗降低30%

6月15日 · 综合整理

智谱GLM-5.2发布并开源：Code Arena全球可用模型第一，1M上下文长程编程能力跃升

6月19日 · 综合整理

微博开源3B小模型VibeThinker，可验证推理性能比肩千亿参数大模型

6月19日 · 综合整理

谷歌开源26B文本扩散MoE模型DiffusionGemma，生成速度最高提升4倍

6月14日 · 综合整理

巴西市政IT公司模型Rio 3.5被曝套壳国产Nex和Qwen

6月16日 · 综合整理

GLM-5.2 全量开放：1M 上下文与长任务能力成亮点

6月14日 · 综合整理

延伸阅读 · 相关教程

视觉大模型 OCR 实现指南

利用视觉大模型实现高级光学字符识别

AI文档处理：OCR、提取与结构化数据

将非结构化文档转化为可操作的结构化数据

Transformer架构深度解析：注意力机制与现代变体

从原始注意力到Flash Attention、分组查询注意力与Mamba

相关资源

浏览 Agent Hub 探索 MCP 专区查看更多资讯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide