模型
百度开源Unlimited OCR:单次推理解析数十页文档,刷新OmniDocBench SOTA
百度近日开源了全新的OCR模型Unlimited OCR,总参数量3B,激活参数500M,在OmniDocBench v1.5和v1.6上分别取得93.23%和93.92%的综合得分,刷新端到端SOTA。该模型基于DeepSeek OCR架构,核心创新在于提出参考滑动窗口注意力(R-SWA),将解码器KV Cache从线性增长压缩为常数,使得模型能够一次性前向推理解析数十页文档,无需逐页处理。在长文档测试中,20页文档的编辑距离仅0.057,40页以上仍控制在0.107以下。推理速度方面,生成6000 token时TPS相比DeepSeek OCR提升约35%。模型权重和代码已开源在GitHub和Hugging Face。技术报告作者中,技术总监署名“YY”,引发外界猜测其可能为前DeepSeek OCR核心研究员魏浩然。
2026年6月25日来源:综合整理
相关资讯
百度开源Unlimited-OCR:常数KV cache实现长文档端到端解析,OmniDocBench刷新SOTA
6月23日 · 综合整理
中国AI模型缩小差距:DeepSeek R2与Qwen 2.5挑战西方主导地位
5月8日 · DeepSeek
中国AI 2025:DeepSeek、百度文心与通义千问如何在出口管制下全球竞争
4月10日 · MIT Technology Review
DeepSeek V3 开源前沿级AI模型
5月20日 · DeepSeek GitHub
Kimi K2.7 Code 发布:代码与Agent能力提升,Token消耗降低30%
6月15日 · 综合整理
DeepSeek识图功能全量上线:能批改作业但认错自家创始人
6月18日 · 综合整理