ITBear旗下自媒体矩阵:

DeepSeek新论文揭秘:为AI装上“手指”,破解多模态推理瓶颈

   时间:2026-05-01 10:26:04 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

DeepSeek多模态研究员陈小康近日在社交平台发布新论文《Thinking with Visual Primitives》,宣布团队在视觉推理领域取得突破性进展。然而该推文及GitHub上的论文在发布后不久被迅速撤回,引发技术圈广泛关注。据知情人士透露,论文撤下并非因内容缺陷,而是其披露的技术细节过于超前,可能涉及尚未公开的核心创新。

传统多模态模型在处理视觉任务时,普遍采用"所见即所译"的转化模式——将图像分解为文字描述后,在语言空间进行逻辑推理。这种路径导致GPT-5.4、Claude-Sonnet-4.6等主流模型在复杂场景中频繁出现"指代混乱"问题。例如在识别密集人群时,模型可能因无法精准定位"穿红衣的第三个人"而输出错误结果,这与人类"边指边数"的认知方式存在本质差异。

DeepSeek提出的解决方案具有颠覆性:通过在模型思维链中嵌入视觉坐标系统,使AI具备"虚拟手指"的定位能力。研究团队将这种技术称为"视觉原语",包含矩形框和坐标点两种基础单元。当处理图像时,模型不再生成模糊的文字描述,而是直接输出目标物体的空间坐标,形成可追溯的推理轨迹。这种设计使模型在计数任务中准确率显著提升,在25人群体识别测试中达到完美精度。

技术实现层面,研究团队构建了三级视觉压缩体系。原始图像经过分块、合并、精简三道工序,最终被转化为仅含81个信息单元的极简表示。这种压缩率达到7056倍的图像处理方式,在保持关键特征的同时大幅降低计算负荷。对比实验显示,同等规模图像下,DeepSeek模型消耗的token数量仅为竞品的1/10,却实现了更精准的空间定位能力。

训练数据构建是该研究的另一大创新。研究团队从公开数据集筛选出4000万个高质量标注样本,通过两轮严格审核确保数据可靠性。针对坐标标注的模糊性问题,团队采用"先框后点"的渐进式训练策略:先让模型掌握物体边界定位,再学习关键点识别。这种分阶段训练方式使模型的空间理解能力呈现指数级提升,在迷宫导航任务中,模型展现出类似人类的路径探索行为。

在多跳推理测试中,DeepSeek模型展现出显著优势。面对"寻找与灰色金属球等大的紫色橡胶物体"这类复杂指令,模型能依次定位6个候选物体,逐一比对颜色、材质和尺寸属性。这种基于坐标锚定的推理方式,使模型在3D场景理解任务中的准确率达到66.9%,远超其他主流模型的随机猜测水平。特别在陷阱迷宫测试中,模型通过系统性的路径探索,成功识别出人为设置的隐蔽障碍。

研究团队特别强调模型的多语言适应能力。尽管训练数据不包含中文样本,模型仍能准确理解中文视觉指令。在咖啡机操作指导测试中,模型用中文标注各部件位置后,生成符合中文习惯的分步操作说明。这种跨语言视觉推理能力,验证了技术方案的普适性价值。

当前技术仍存在明显局限。在极高分辨率场景下,坐标精度不足导致模型出现计数错误;模型需要特定提示词才能激活视觉原语模式,自主判断能力有待提升;在未训练过的拓扑结构中,模型的路径规划准确率出现明显下降。研究团队承认,复杂空间推理的泛化能力仍是待攻克的核心难题,但表示将持续优化算法架构。

这项研究为多模态技术发展开辟了新路径。传统模型通过提升图像分辨率来改善性能的"军备竞赛",可能被更高效的锚定机制所取代。DeepSeek的实践表明,赋予AI虚拟定位能力,比单纯增强视觉感知更能提升推理可靠性。随着坐标锚定技术的不断完善,未来多模态模型有望在机器人导航、医学影像分析等领域实现突破性应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version