DeepSeek近日正式面向全体用户开放了图像识别功能,手机端应用同步完成更新,用户打开应用即可体验这一新特性。此前,该功能处于小范围灰度测试阶段,仅部分用户能够使用,如今已全面上线。
有用户上传了黄仁勋在北京小吃街喝豆汁的照片进行测试。结果显示,DeepSeek能识别出图中人物是黄仁勋,但忽略了瓶身上的“豆汁”字样,将其误判为牛奶,对人物表情的解读也不够精准。当切换到深度思考模式后,尽管DeepSeek依旧未能识别出瓶身上的“尹三豆汁”字样,不过凭借推理能力和已有的知识储备,推断出饮品为豆汁,不过表情解读方面仍未有明显改善。
社交媒体上,不少网友对人物识别功能进行了测试,效果不尽如人意。像何同学等知名人物均出现识别错误的情况,就连DeepSeek团队负责人梁文锋本人也未被准确识别。从其思考过程来看,识别人物主要依靠视觉线索,如面部特征、发型等,与人物的公众形象进行比对,由于像黄仁勋这样特征独特的人物较少,所以准确率不高也在情理之中。
在安全限制方面,DeepSeek表现得较为严格。有用户尝试上传雷军近期的热门图片,却收到“可能违反使用规范”的提示。
对于潦草汉字的识别,DeepSeek也存在不足。测试图片中的汉字有横线干扰、笔画粘连以及错别字干扰等情况,结果7个字中识别错了4个。这表明该模型在真实场景手写文本识别、领域词汇约束和语义纠错等方面还有待提升。
不过,DeepSeek在文物识别方面表现出色。在测试中,虽然未能成功找到文物的出处,但准确判断出其属于莫卧儿帝国风格,并对其工艺进行了详细分析。
在寻找相同袜子的测试中,给定一张包含多双袜子的图片,要求找出完全相同的袜子,正确答案是第一行第三个和第三行第二个,但DeepSeek未能给出正确答案。
在钢琴和弦识别测试中,上传一张钢琴弹奏实拍图并询问“弹的是什么和弦”。根据钢琴黑键按“两黑 + 三黑”组规律排列,两黑键中间的白键永远是D音,可推断出相邻的C和E等音高,正确答案应为ACE,但DeepSeek判断错误。同时测试的Gemini 3.5 flash、GPT 5.5和Claude Sonnet 4.6也均未答对,Claude Sonnet 4.6甚至直接罢工,这显示出这些大模型在音乐理推理能力上存在局限。
随着图像识别功能的全面发布,开发者们产生了诸多疑问,例如该功能与DeepSeek 4.1有无关联、背后技术是否采用原生多模态、多模态的API何时上线等。这些问题出现在DeepSeek多模态团队研究者Xiaokang Chen的X贴文评论区,但他并未作出回应。或许后续DeepSeek会发布相关技术文档,为大家解答疑惑。








