滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek另辟蹊径：以“赛博手指”破解多模态推理视觉指代难题

时间：2026-05-01 10:29:52 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

五一假期前夕，人工智能领域迎来一份引人注目的技术报告——DeepSeek团队发布了关于视觉多模态模型的新突破。这份报告没有延续行业主流的“提升图像分辨率”路径，而是将研究重心转向多模态推理中一个长期被忽视的核心问题：如何确保模型在推理过程中始终指向用户意图的同一视觉对象。

传统多模态模型在处理复杂场景时，常因语言指代模糊导致推理崩溃。例如，当图像中出现多只狗时，模型难以理解“左边那只”的具体所指；在需要计数或追踪路径的任务中，模型容易混淆已处理与未处理的对象。这种困境源于自然语言在空间定位和拓扑关系描述上的先天局限——语言擅长抽象概念表达，却难以精确描述视觉空间中的具体位置和连接关系。

DeepSeek提出的解决方案是引入“视觉基元”概念，将边界框和点坐标提升为模型推理的基本单元。通过让模型在输出文本中显式标注视觉对象的空间坐标（如“狗的位置在[[x1,y1,x2,y2]]”），实现“边推理边指向”的机制。这种设计使模型每一步思考都锚定在具体图像坐标上，有效解决了语言指代漂移问题。技术演示显示，在迷宫导航任务中，模型能输出完整的坐标路径序列，每个坐标对应实际走过的位置，推理过程完全可追溯。

与OpenAI“thinking with images”路线形成鲜明对比的是，DeepSeek选择了一条更符号化的技术路径。OpenAI侧重让模型在内部视觉工作台中操作图像（如裁剪、旋转），而DeepSeek则将坐标信息显式融入推理链，使中间过程完全透明。这种差异体现在应用场景上：OpenAI的方案适合需要图像生成的创意任务，而DeepSeek的机制更适用于需要精确空间推理的领域，如机器人导航、工业质检等。

报告中最令人瞩目的创新是“压缩稀疏注意力”（CSA）机制。通过将图像先压缩为少量视觉token，再进一步压缩KV缓存表示，DeepSeek实现了惊人的压缩比——一张756×756图像的57万个像素最终被压缩为81个KV缓存条目，压缩比达7056倍。这种效率提升带来多重优势：推理速度显著加快，内存占用大幅降低，上下文容量成倍增长，训练成本有效控制。实验数据显示，处理同分辨率图像时，DeepSeek的token消耗量仅为Gemini的1/3，KV缓存条目数仅为其1/10。

这种极致效率并非以牺牲性能为代价。DeepSeek认为，对于空间推理任务，关键不在于保留所有原始像素信息，而在于提取对推理至关重要的结构化表征。视觉基元机制本身即是一种高效压缩——一个边界框用4个数字即可精确定位物体，信息密度远高于原始像素。实验结果表明，这种压缩方式在计数、路径追踪等任务中甚至带来了性能提升。

尽管取得突破，报告也坦诚指出当前方法的局限性。首先是触发词依赖问题：模型需要显式指令才能激活视觉基元模式，尚未具备自主判断何时需要空间标记的能力。其次是分辨率限制：为控制token数量，模型对输入图像进行了缩放处理，在医疗影像分析等需要细粒度识别的场景中表现不足。最后是跨场景泛化挑战：虽然通过大规模合成数据训练提升了迷宫导航等任务的准确率，但在真实世界拓扑推理任务中的表现仍有待验证。

针对这些挑战，研究团队提出了潜在解决方案。对于触发词依赖问题，可通过构建元认知层使模型自主评估任务复杂度；对于分辨率限制，可开发混合架构，在常规任务中使用压缩表征，在局部区域动态调用高分辨率处理；对于泛化能力，需进一步扩大数据多样性并探索视觉基元与传统多模态生态的兼容路径。这些思考展现了团队对技术边界的清醒认知，也为后续研究指明了方向。

更多>同类资讯

DeepSeek新论文揭秘：为AI装上“手指”，破解多模态推理瓶颈

05-01

AI智能体越界操作引纠纷广州互联网法院裁定叫停并划定法律边界

05-01

美的集团“双增”领跑白电三巨头，战略转型能否持续引领行业新风向？

05-01

中国AI大模型周调用量骤降：价格、模式与市场变化下的新挑战

05-01

高通拓展AI数据中心版图，携手超大规模云厂商，剑指英伟达算力市场

05-01

苹果Q2财报亮眼：营收1112亿美元，iPhone 17需求旺盛推动业绩创新高

05-01

AI融入生活：2025年峰会现场见证智能应用从想象走进日常

05-01

苹果Mac Studio与Mac Mini需求超预期，未来数月或面临供不应求局面

05-01

吉利中国星i-HEV智擎混动双车上市，以五大优势开启中国燃油车新纪元

05-01

宇树科技再推新作：双臂人形机器人亮相，低至2.69万元开启智能操作新体验

05-01

DeepSeek发布多模态大模型技术报告，创新框架突破空间参照瓶颈

05-01

维信诺发布自研OLED垂域大模型"维擎" 构建三级AI架构实现产线毫秒级响应

05-01

苹果库克称Mac Studio与Mac Mini需求超预期，未来数月或难达供需平衡

05-01

软银拟设AI新实体“Roze AI” 目标年内上市估值千亿引内部质疑

05-01

DeepSeek发布多模态大模型技术报告创新框架突破空间参照瓶颈

05-01

点击查看更多 +

全站最新

谷歌收涨10%，单日市值暴增4210亿美元，创史上第二纪录

美股4月收官：纳指、标普500指数单月涨超10%！高通周五大涨超15%，中概指数涨超2%

美股异动｜英伟达收跌4.63% 市值失守5万亿美元多家美股科技公司透露芯片自研进展

小红书4月30日大调整！柯南任总裁、AI成战略重心，出海与创新同步发力

鸿蒙智行山西媒体活动启幕，五款新车齐发，鸿蒙生态加速融入山西生活

奔驰调整电动化策略：油电车型“合流”，回归统一平台更务实

热门内容

本栏最新

吉利中国星i-HEV智擎混动双车上市，以五大优势开启中国燃油车新纪元

宇树科技双臂人形机器人亮相，2.69万元起售，灵活操作未来可期

乐道L80入局大五座SUV市场，李斌：纯电空白将被填补，销量或迎拐点

硬核技术赋能出行新体验吉利中国星i-HEV智擎混动双车引领混动新风潮

传统智驾遇瓶颈：规则局限难突破，端到端大模型成车企新赛道焦点

ChatGPT问世后：全球互联网新增内容超三成现AI生成痕迹

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.