ITBear旗下自媒体矩阵:

突发!DeepSeek“开眼”,AI圈一夜腥风血雨

   时间:2026-04-30 02:55:45 来源:雷科技编辑:快讯 IP:北京 发表评论无障碍通道
 

DeepSeek的「鲸鱼」,终于睁开了眼睛。

今日,DeepSeek负责多模态开发的研究员陈小康在X平台发布了一条动态:Now, we see you。配图里,DeepSeek标志性的鲸鱼logo摘下了眼罩。

几乎在同一时间,用户发现DeepSeek网页版悄然上线了「识图模式」。在该模式下,用户可以上传图片,由模型进行内容理解与分析。不过,这一功能目前尚未全量推送,仅有部分用户获得了入口权限,雷科技(ID:leitech)已第一时间获得灰度测试资格,具体内容可以关注稍后的雷科技相关内容。

说实话,DeepSeek之前的爆火,靠的就是文本推理上的性价比奇迹。V3和R1用极低的训练成本,干出了接近甚至超越闭源巨头的逻辑推理能力,直接把行业价格打下来,但短板也很明显:它一直只能读文,不能看图。

这在日常用起来特别别扭,别人传张Excel截图让Claude直接分析数据,或者给Gemini一张草图让它生成代码,这些操作以往在DeepSeek上都玩不了。它可以写代码、解数学题、写大纲,但遇到一张图片,它只能说一声抱歉。

但,要做平台级AI,视觉理解始终是绕不开的,DeepSeek也不例外。

现实世界里大量信息根本不以文字形式存在,发票、报表、路牌、商品包装、设计稿、朋友圈截图等等,如果AI连这些都读不了,它的实用性就被砍了一大半。

如今识图模式的到来,意味着DeepSeek的产品能力正式从纯文本对话延伸至图文交互领域,补齐了其与GPT、Gemini等主流多模态大模型之间的关键差距。

但不可否认的是,DeepSeek现在推出识图模式,压力不小。

GPT的视觉理解已经相当成熟,而Gemini本来就是多模态原生架构,Claude对图表和文档的解析也越来越强。用户胃口早就被养刁了,DeepSeek想在这个领域再当一次黑马,光能看图不够,还得有点绝活。

比如结合它擅长的推理能力,看着一张数据图表推导出商业趋势,或者对着一张电路图给出维修建议,那才是真正的差异化。

大胆猜测,在视觉理解能力开放之后,DeepSeek后续可能还会逐步开放图像生成、视频理解等更高阶的能力。如果能把专家模式的深度思考与识图模式的视觉理解的结合,那DeepSeek未来在复杂图文推理场景中的表现值得期待。

鲸鱼摘了眼罩只是第一步,但它「看见」了之后,能不能给出让人眼前一亮的回答?能不能做出差异化?做出一些颠覆行业的事情,哪怕只是一点点,这才是我们熟悉的DeepSeek。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version