模型
百度开源Unlimited-OCR:常数KV cache实现长文档端到端解析,OmniDocBench刷新SOTA
百度近日开源Unlimited-OCR模型,总参数量3B(激活500M),在OmniDocBench v1.6上以93.92%的综合得分刷新端到端OCR SOTA。该模型核心创新是参考滑动窗口注意力(R-SWA),将解码器KV cache从线性增长压缩为常数,使得单次前向推理可转录数十页文档,且延迟和显存占用不随输出长度增加。
技术核心:R-SWA与DeepEncoder
- R-SWA机制:每个生成token同时关注全部参考token(视觉token和提示词)以及最近输出的128个token,视觉token不参与状态更新,避免特征退化。KV cache大小恒定为参考段长度加滑动窗口宽度,不随序列增长。
- DeepEncoder:沿用DeepSeek-OCR的编码器,将1024×1024 PDF图像压缩为256个视觉token(16倍压缩),支持Base(固定分辨率)和Gundam(动态分辨率)两种模式。
- 模型架构:3B总参MoE,500M激活参数,所有注意力层替换为R-SWA。基于DeepSeek-OCR checkpoint续训4000步,使用200万OCR样本(单页:多页=9:1),多页样本随机生成2-50页,序列长度32K。
性能表现:全面SOTA
- OmniDocBench v1.5:总分93.23%,较DeepSeek-OCR(87.01%)提升6.22个百分点。文本编辑距离从0.073降至0.038,公式CDM从83.37升至92.61,表格TEDS从84.97升至90.93,阅读顺序编辑距离从0.086降至0.045。
- OmniDocBench v1.6:总分93.92%,端到端SOTA。
- 长文档测试:20页文档编辑距离0.0572,40+页编辑距离0.1069(Distinct-35达96.90%)。团队指出40+页错误主要源于DeepEncoder多页模式分辨率限制,而非R-SWA问题。
- 效率:OmniDocBench上TPS达5580(DeepSeek-OCR为4951),输出6144 token时TPS为7847(DeepSeek-OCR为5822),优势随输出长度扩大。
开源与影响
- 模型权重和代码已开源至GitHub和HuggingFace。
- R-SWA被设计为通用解码方案,可应用于ASR、翻译等长输出任务,团队计划下一步迁移验证。
- 论文技术总监署名“YY”,业界推测为前DeepSeek OCR核心作者魏浩然(已离职),其曾主导GOT-OCR2.0和DeepSeek-OCR系列。
- 百度PaddleOCR的产业基础与前沿研究结合,有望推动OCR从单页识别向整本书理解演进。
2026年6月23日来源:综合整理
相关资讯
Kimi K2.7 Code 发布:代码与Agent能力提升,Token消耗降低30%
6月15日 · 综合整理
智谱GLM-5.2发布并开源:Code Arena全球可用模型第一,1M上下文长程编程能力跃升
6月19日 · 综合整理
微博开源3B小模型VibeThinker,可验证推理性能比肩千亿参数大模型
6月19日 · 综合整理
谷歌开源26B文本扩散MoE模型DiffusionGemma,生成速度最高提升4倍
6月14日 · 综合整理
巴西市政IT公司模型Rio 3.5被曝套壳国产Nex和Qwen
6月16日 · 综合整理
GLM-5.2 全量开放:1M 上下文与长任务能力成亮点
6月14日 · 综合整理