返回资讯列表

模型

DeepSeek识图功能全量上线：能批改作业但认错自家创始人

事件概述

2025年端午节前，DeepSeek在官方平台全量推送了识图模式，手机端App同步更新。该功能此前处于灰度测试阶段，现已向所有用户开放。多家媒体和用户测试显示，DeepSeek在视觉理解任务上表现参差不齐：能完成部分复杂任务（如批改小学数学试卷），但在人物识别、手写文字识别、逻辑推理等场景中频繁出错，甚至认不出自家创始人梁文锋。

关键测试结果

人物识别：认不出老板，却“认识”刘强东

梁文锋（DeepSeek创始人）：多次测试中，DeepSeek将其误认为张小龙、宿华、王小川、李彦宏等人，且每次答案不同。
黄仁勋：能正确识别，但将手中的豆汁误判为牛奶；切换深度思考模式后，通过推理正确推断出是豆汁。
刘强东：识别态度坚决，用户试图误导时仍坚持正确。
雷军：上传图片后，模型提示“可能违反使用规范”，拒绝识别。

作业批改：表现较好，但逻辑有漏洞

测试小学四年级数学试卷（含图片题），DeepSeek成功识别并批改，正确找出错误题目。
但在一个平均身高计算题中，模型识别了原平均身高（140.2 cm）和新平均身高（139 cm），却错误判断红红身高为139 cm（选项B），实际正确答案应为低于139 cm（选项A）。

手写文字识别：准确率低

测试潦草汉字（含横线干扰、笔画粘连、错别字），7个字识别错了4个，显示在真实场景手写文本识别方面仍有较大提升空间。

其他视觉任务

时钟识别：将6:04:50左右的时间误判为6:00:50，且坚持确认。
文物识别：成功判断为莫卧儿帝国风格，并详细分析工艺，但未找到具体出处。
找相同袜子：未能正确找出完全相同的袜子（正确答案为第一行第三个和第三行第二个）。
钢琴和弦识别：上传钢琴弹奏实拍图，提问“弹的是什么和弦”，DeepSeek判断错误（正确答案为ACE）。

各方反应与对比

用户反馈：社交媒体上大量用户测试发现，DeepSeek对何同学等知名人物也出现识别错误。有用户调侃其“一本正经地胡说八道”。
竞品对比：
- 豆包：在人物识别、作业批改、时钟识别等任务上表现更准确，速度更快。
- Gemini 3.5 flash、GPT 5.5：在钢琴和弦识别任务中均回答错误。
- Claude Sonnet 4.6：直接拒绝回答该任务。
- Opus 4.8：在坦克大战逻辑题中能反思并给出正确推理，表现突出。

影响与后续

技术疑问：开发者关注该模式是否与DeepSeek 4.1有关、是否采用原生多模态技术、多模态API何时上线。DeepSeek多模态团队研究者Xiaokang Chen未予回应。
行业观察：DeepSeek识图功能的上线补齐了多模态短板，但当前准确率较低，尤其在人物识别和手写文字识别方面。预计后续可能发布技术文档或进行优化。

2026年6月18日来源：综合整理

deepseek multimodal image-recognition ai-model

相关资讯

DeepSeek-R1 开源，推理成本仅 OpenAI 的 3%

1月20日 · GitHub / DeepSeek

中国AI 2025：DeepSeek、百度文心与通义千问如何在出口管制下全球竞争

4月10日 · MIT Technology Review

DeepSeek V3 开源前沿级AI模型

5月20日 · DeepSeek GitHub

DeepSeek完成超500亿元首轮融资，估值超500亿美元，特殊交易结构确保控制权

6月17日 · 综合整理

GLM-5.2 全量开放：1M 上下文与长任务能力成亮点

6月14日 · 综合整理

Meta Llama 4 Scout 与 Maverick：开源AI迎来多模态与1000万上下文窗口

4月14日 · The Decoder

延伸阅读 · 相关教程

AI 图像描述实现指南

使用视觉语言模型生成描述性字幕

视觉大模型 OCR 实现指南

利用视觉大模型实现高级光学字符识别

Claude Vision 图像分析：实现指南

使用 Claude 3 Vision 分析图像与文档

Gemini 2.0 API 教程 2026：拥有 200 万 Token 上下文的 multimodal AI

使用 Gemini 2.0 Flash 和 Pro 构建 multimodal AI 应用：视觉、音频、文档

相关资源

浏览 Agent Hub 探索 MCP 专区查看更多资讯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide