ITBear旗下自媒体矩阵:

DeepSeek多模态新进展:识图模式小范围灰度,图像理解能力上线

   时间:2026-04-29 18:47:38 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

DeepSeek多模态团队近日动作频频,负责人陈小康在社交平台X上连续发布动态,引发外界对该公司多模态技术进展的广泛关注。4月29日,他发布“Now, we see you.”的推文,配图是两只DeepSeek鲸鱼logo的变化——一只摘下海盗眼罩,另一只睁开眼睛。这已是他在24小时内第二次释放类似信号,前一天他曾发布“Soon, we see you”的预告,但该推文随后被删除。

陈小康在DeepSeek负责多模态预训练与后训练工作,主导大模型的多模态能力建设。他博士阶段师从北京大学曾刚教授,研究方向包括视觉-语言模型、半监督分割等领域。此次预告发布之际,部分用户已在DeepSeek官方App中体验到“识图模式”的灰度测试。该模式在输入栏上方新增按钮,标注“图片理解功能内测中”,用户上传图片后可获得结构化描述,涵盖需求分析和内容识别等功能。

这是DeepSeek主线产品首次引入图像理解能力。此前4月8日,App完成模式分层改版,上线“快速模式”和“专家模式”,分别由V4-Flash和V4-Pro驱动。当时已有用户发现设置中存在“视觉”选项,但该功能迟迟未开放。此次灰度测试标志着这一选项开始小范围落地,距离V4正式发布仅过去5天。

值得注意的是,V4系列预览版(4月24日发布)仍是纯文本模型,参数规模达1.6T的V4-Pro和284B的V4-Flash均支持1M token上下文。这与外界此前关于“V4将原生支持多模态”的猜测不符。技术报告明确指出,下一步工作包括将多模态能力融入模型体系。此次识图模式的推出,可视为该方向的首个产品化尝试。

近期DeepSeek多模态团队经历人事变动。自动驾驶公司元戎启行确认,原DeepSeek多模态模型核心贡献者阮翀已加盟担任首席科学家;DeepSeek-OCR系列核心作者魏浩然也在春节前后离职。此次陈小康的预告和产品更新,是团队近三个月来首次以产品形式对外展示进展。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version