滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek新论文揭秘：为AI装上“手指”，破解多模态推理瓶颈

时间：2026-05-01 10:26:04 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

DeepSeek多模态研究员陈小康近日在社交平台发布新论文《Thinking with Visual Primitives》，宣布团队在视觉推理领域取得突破性进展。然而该推文及GitHub上的论文在发布后不久被迅速撤回，引发技术圈广泛关注。据知情人士透露，论文撤下并非因内容缺陷，而是其披露的技术细节过于超前，可能涉及尚未公开的核心创新。

传统多模态模型在处理视觉任务时，普遍采用"所见即所译"的转化模式——将图像分解为文字描述后，在语言空间进行逻辑推理。这种路径导致GPT-5.4、Claude-Sonnet-4.6等主流模型在复杂场景中频繁出现"指代混乱"问题。例如在识别密集人群时，模型可能因无法精准定位"穿红衣的第三个人"而输出错误结果，这与人类"边指边数"的认知方式存在本质差异。

DeepSeek提出的解决方案具有颠覆性：通过在模型思维链中嵌入视觉坐标系统，使AI具备"虚拟手指"的定位能力。研究团队将这种技术称为"视觉原语"，包含矩形框和坐标点两种基础单元。当处理图像时，模型不再生成模糊的文字描述，而是直接输出目标物体的空间坐标，形成可追溯的推理轨迹。这种设计使模型在计数任务中准确率显著提升，在25人群体识别测试中达到完美精度。

技术实现层面，研究团队构建了三级视觉压缩体系。原始图像经过分块、合并、精简三道工序，最终被转化为仅含81个信息单元的极简表示。这种压缩率达到7056倍的图像处理方式，在保持关键特征的同时大幅降低计算负荷。对比实验显示，同等规模图像下，DeepSeek模型消耗的token数量仅为竞品的1/10，却实现了更精准的空间定位能力。

训练数据构建是该研究的另一大创新。研究团队从公开数据集筛选出4000万个高质量标注样本，通过两轮严格审核确保数据可靠性。针对坐标标注的模糊性问题，团队采用"先框后点"的渐进式训练策略：先让模型掌握物体边界定位，再学习关键点识别。这种分阶段训练方式使模型的空间理解能力呈现指数级提升，在迷宫导航任务中，模型展现出类似人类的路径探索行为。

在多跳推理测试中，DeepSeek模型展现出显著优势。面对"寻找与灰色金属球等大的紫色橡胶物体"这类复杂指令，模型能依次定位6个候选物体，逐一比对颜色、材质和尺寸属性。这种基于坐标锚定的推理方式，使模型在3D场景理解任务中的准确率达到66.9%，远超其他主流模型的随机猜测水平。特别在陷阱迷宫测试中，模型通过系统性的路径探索，成功识别出人为设置的隐蔽障碍。

研究团队特别强调模型的多语言适应能力。尽管训练数据不包含中文样本，模型仍能准确理解中文视觉指令。在咖啡机操作指导测试中，模型用中文标注各部件位置后，生成符合中文习惯的分步操作说明。这种跨语言视觉推理能力，验证了技术方案的普适性价值。

当前技术仍存在明显局限。在极高分辨率场景下，坐标精度不足导致模型出现计数错误；模型需要特定提示词才能激活视觉原语模式，自主判断能力有待提升；在未训练过的拓扑结构中，模型的路径规划准确率出现明显下降。研究团队承认，复杂空间推理的泛化能力仍是待攻克的核心难题，但表示将持续优化算法架构。

这项研究为多模态技术发展开辟了新路径。传统模型通过提升图像分辨率来改善性能的"军备竞赛"，可能被更高效的锚定机制所取代。DeepSeek的实践表明，赋予AI虚拟定位能力，比单纯增强视觉感知更能提升推理可靠性。随着坐标锚定技术的不断完善，未来多模态模型有望在机器人导航、医学影像分析等领域实现突破性应用。

更多>同类资讯

AI智能体越界操作引纠纷广州互联网法院裁定叫停并划定法律边界

05-01

美的集团“双增”领跑白电三巨头，战略转型能否持续引领行业新风向？

05-01

中国AI大模型周调用量骤降：价格、模式与市场变化下的新挑战

05-01

高通拓展AI数据中心版图，携手超大规模云厂商，剑指英伟达算力市场

05-01

苹果Q2财报亮眼：营收1112亿美元，iPhone 17需求旺盛推动业绩创新高

05-01

AI融入生活：2025年峰会现场见证智能应用从想象走进日常

05-01

苹果Mac Studio与Mac Mini需求超预期，未来数月或面临供不应求局面

05-01

吉利中国星i-HEV智擎混动双车上市，以五大优势开启中国燃油车新纪元

05-01

宇树科技再推新作：双臂人形机器人亮相，低至2.69万元开启智能操作新体验

05-01

DeepSeek发布多模态大模型技术报告，创新框架突破空间参照瓶颈

05-01

维信诺发布自研OLED垂域大模型"维擎" 构建三级AI架构实现产线毫秒级响应

05-01

苹果库克称Mac Studio与Mac Mini需求超预期，未来数月或难达供需平衡

05-01

软银拟设AI新实体“Roze AI” 目标年内上市估值千亿引内部质疑

05-01

DeepSeek发布多模态大模型技术报告创新框架突破空间参照瓶颈

05-01

苹果Mac Studio与Mac Mini需求超预期，未来数月或持续供不应求

05-01

点击查看更多 +

全站最新

谷歌收涨10%，单日市值暴增4210亿美元，创史上第二纪录

美股4月收官：纳指、标普500指数单月涨超10%！高通周五大涨超15%，中概指数涨超2%

美股异动｜英伟达收跌4.63% 市值失守5万亿美元多家美股科技公司透露芯片自研进展

小红书4月30日大调整！柯南任总裁、AI成战略重心，出海与创新同步发力

鸿蒙智行山西媒体活动启幕，五款新车齐发，鸿蒙生态加速融入山西生活

奔驰调整电动化策略：油电车型“合流”，回归统一平台更务实

热门内容

本栏最新

吉利中国星i-HEV智擎混动双车上市，以五大优势开启中国燃油车新纪元

宇树科技双臂人形机器人亮相，2.69万元起售，灵活操作未来可期

乐道L80入局大五座SUV市场，李斌：纯电空白将被填补，销量或迎拐点

硬核技术赋能出行新体验吉利中国星i-HEV智擎混动双车引领混动新风潮

传统智驾遇瓶颈：规则局限难突破，端到端大模型成车企新赛道焦点

ChatGPT问世后：全球互联网新增内容超三成现AI生成痕迹

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.