ITBear旗下自媒体矩阵:

DeepSeek“识图模式”大范围上线,以创新框架开启图文交互新体验

   时间:2026-05-09 11:49:37 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近期,人工智能领域迎来一项重要进展——DeepSeek正式面向用户开放“识图模式”功能。此前,该功能已进行多轮灰度测试,目前测试账号已能普遍看到相关入口,但官方仍标注为“图片理解功能内测中”。这一模式突破了传统文字OCR的局限,实现了对图片内容的深度理解与分析。

在实际体验中,“识图模式”展现出强大的多维度能力。在文物识别场景下,用户上传博物馆拍摄的文物照片后,系统不仅能描述其纹理与材质特征,还能结合历史背景推断出具体年代与风格。例如,某件玉器被准确识别为18世纪清代乾隆时期的“痕都斯坦风格”作品。面对复杂的空间推理题时,该模式通过深度思考机制,在耗时约4分钟后成功解答了立方体拼合类难题,展现出严谨的逻辑推导能力。

针对网络流行文化内容,系统表现出敏锐的“网感”。测试中,它不仅能精准识别表情包中的人物角色——包括从合影中区分现实人物与动漫角色,还能解读动物表情背后的情绪,准确捕捉网民的转发笑点。在生产力场景应用方面,该模式可高效解析技术报告截图,自动提取代码与界面元素,甚至能反向生成可交互的HTML代码,完整还原原始网页的跳转功能。

技术层面,DeepSeek同步公开了其核心框架“Thinking with Visual Primitives”(视觉原语思考)。该框架通过将点、边界框等空间定位元素直接融入推理链条,解决了传统模型在处理密集场景时存在的“指代鸿沟”问题。这种创新机制使模型在推理过程中能像人类一样“边想边指”,显著提升了复杂空间布局的解析能力。运算效率测试显示,处理800×800分辨率图片时,该模型仅消耗约90个tokens,仅为其他主流模型消耗量的十分之一。

尽管取得突破性进展,该功能仍存在明显局限。知识库更新滞后导致识别结果出现偏差,例如将2025年底发布的新款手机误判为旧型号。在处理反直觉图形题目时,系统表现不稳定,长时间深度思考后甚至出现逻辑混乱的情况。当前版本仅支持纯视觉理解,尚未集成图像生成、视频分析等跨模态交互功能,功能边界仍局限于静态图片分析领域。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version