ITBear旗下自媒体矩阵:

DeepSeek发布多模态模型技术报告:创新框架破解空间参照难题

   时间:2026-05-01 00:31:24 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,多模态大语言模型(MLLMs)的发展备受瞩目。然而,这类模型在处理空间参照任务时,始终面临着一道难以跨越的障碍。近日,DeepSeek团队在GitHub平台正式发布其多模态大模型,并同步公开技术报告,提出了一种创新性的解决方案——基于“视觉原语”的推理框架,有望打破这一瓶颈。

当前,多模态大语言模型虽已取得显著进展,但主流的链式思维(CoT)推理范式仍局限于语言学范畴。为提升模型对视觉细节的识别能力,现有研究多聚焦于高分辨率图像裁剪等技术手段,试图弥合“感知鸿沟”。然而,DeepSeek团队指出,这一思路忽视了更为根本的限制——参照鸿沟。自然语言在描述复杂空间布局时,往往存在模糊性,难以提供精确指引。当模型需要执行涉及严谨空间参照的任务时,这种语言表达的局限性会导致推理链条断裂,出现逻辑崩溃。

针对这一难题,DeepSeek团队提出了“基于视觉原语的思考”(Thinking with Visual Primitives)框架。该框架将点、边界框等空间标记从单纯的视觉输入元素,提升为推理过程中的“基本思维单元”。通过将这些视觉原语直接嵌入模型的思考链路,模型在推理过程中具备了“指代”能力,能够将抽象的认知轨迹锚定到图像的具体物理坐标上,从而实现对空间关系的精确推演。

技术报告显示,该框架采用了高度优化的模型架构,具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低,DeepSeek的多模态模型在具有挑战性的计数和空间推理基准测试上,仍能与GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型相媲美。这一成果为开发更高效、更具可扩展性的System-2类多模态智能指明了方向。

值得一提的是,DeepSeek此前已上线“识图模式”。该模式与“快速模式”“专家模式”并列,并非简单的OCR文字识别,而是真正具备了多模态识别能力。这一功能的推出,进一步验证了DeepSeek在多模态领域的深厚积累和技术实力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version