五一假期前夕,科技圈迎来一项重要突破——DeepSeek发布视觉多模态技术报告,提出一套与主流路线截然不同的解决方案。当行业普遍聚焦于提升模型视觉分辨率时,这家研究机构将攻关方向转向推理过程中的"指代稳定性",试图解决人机视觉认知的核心矛盾。
传统多模态模型在处理复杂场景时存在致命缺陷:当画面中出现多个相似对象时,语言描述的模糊性会导致推理链断裂。例如在描述"穿红衣服的行人"时,模型难以区分三个身着相似服装的人物。这种被称为"引用鸿沟"的现象,成为制约视觉推理准确性的关键瓶颈。研究团队通过引入"视觉基元"概念,将边界框和坐标点转化为推理的基本单元,使模型能够像人类用手指物般进行精准指代。
技术实现层面,该方案创造性地构建了"边推理边指向"的机制。模型在生成文本答案的同时,会输出对应视觉对象的坐标标记,如"检测到三只狗,位置分别为[[x1,y1,x2,y2]], [[x3,y3,x4,y4]]..."。这种显式化的空间锚定,使推理过程具备可追溯性。在迷宫导航测试中,模型能完整记录行进路径的坐标序列,彻底避免了传统方法因语言描述不清导致的逻辑混乱。
效率革命是该技术的另一大亮点。通过压缩稀疏注意力机制,模型将图像处理所需的token数量压缩至行业平均水平的三分之一。以800×800分辨率图像为例,传统模型需要消耗约1100个token,而DeepSeek方案仅需361个。这种指数级压缩得益于双重处理流程:首先将图像分割为14×14的补丁块,再通过3×3空间压缩生成视觉标记,最终在KV缓存中保留极简的81个条目。
硬件友好性带来显著部署优势。内存占用降低90%使得单卡可同时处理更多图像请求,推理延迟的大幅缩减则满足自动驾驶等实时场景需求。更关键的是,这种效率提升并未牺牲模型性能——在空间推理任务中,准确率较传统方法提升12%-18%。研究团队强调,信息压缩遵循严格的选择标准,仅保留对推理至关重要的空间坐标信息,剔除冗余像素数据。
当前方案仍存在三方面局限。首先是触发机制依赖人工指令,模型尚不能自主判断何时启用视觉基元;其次受输入分辨率限制,在医疗影像等细粒度分析场景表现欠佳;最后是跨场景泛化能力不足,真实世界复杂拓扑结构下的准确率较合成数据下降约20%。针对这些问题,研究团队正在开发动态分辨率调整模块,并构建包含9.7万个数据源的多元化训练集。
这项突破引发学界对视觉推理本质的重新思考。传统观点认为提升图像质量是唯一路径,而DeepSeek证明,建立合适的空间表征体系可能更具决定性。其技术路线与OpenAI的"图像思维链"形成鲜明对比:前者追求推理透明性,将空间坐标显式化;后者侧重内部处理能力,保持视觉操作的"黑箱"特性。这种范式差异或将重塑多模态技术的发展方向。











