滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek另辟蹊径：用“赛博手指”破解视觉推理难题，效率与透明度双提升

时间：2026-05-01 11:55:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

五一假期前夕，科技圈迎来一项重要突破——DeepSeek发布视觉多模态技术报告，提出一套与主流路线截然不同的解决方案。当行业普遍聚焦于提升模型视觉分辨率时，这家研究机构将攻关方向转向推理过程中的"指代稳定性"，试图解决人机视觉认知的核心矛盾。

传统多模态模型在处理复杂场景时存在致命缺陷：当画面中出现多个相似对象时，语言描述的模糊性会导致推理链断裂。例如在描述"穿红衣服的行人"时，模型难以区分三个身着相似服装的人物。这种被称为"引用鸿沟"的现象，成为制约视觉推理准确性的关键瓶颈。研究团队通过引入"视觉基元"概念，将边界框和坐标点转化为推理的基本单元，使模型能够像人类用手指物般进行精准指代。

技术实现层面，该方案创造性地构建了"边推理边指向"的机制。模型在生成文本答案的同时，会输出对应视觉对象的坐标标记，如"检测到三只狗，位置分别为[[x1,y1,x2,y2]], [[x3,y3,x4,y4]]..."。这种显式化的空间锚定，使推理过程具备可追溯性。在迷宫导航测试中，模型能完整记录行进路径的坐标序列，彻底避免了传统方法因语言描述不清导致的逻辑混乱。

效率革命是该技术的另一大亮点。通过压缩稀疏注意力机制，模型将图像处理所需的token数量压缩至行业平均水平的三分之一。以800×800分辨率图像为例，传统模型需要消耗约1100个token，而DeepSeek方案仅需361个。这种指数级压缩得益于双重处理流程：首先将图像分割为14×14的补丁块，再通过3×3空间压缩生成视觉标记，最终在KV缓存中保留极简的81个条目。

硬件友好性带来显著部署优势。内存占用降低90%使得单卡可同时处理更多图像请求，推理延迟的大幅缩减则满足自动驾驶等实时场景需求。更关键的是，这种效率提升并未牺牲模型性能——在空间推理任务中，准确率较传统方法提升12%-18%。研究团队强调，信息压缩遵循严格的选择标准，仅保留对推理至关重要的空间坐标信息，剔除冗余像素数据。

当前方案仍存在三方面局限。首先是触发机制依赖人工指令，模型尚不能自主判断何时启用视觉基元；其次受输入分辨率限制，在医疗影像等细粒度分析场景表现欠佳；最后是跨场景泛化能力不足，真实世界复杂拓扑结构下的准确率较合成数据下降约20%。针对这些问题，研究团队正在开发动态分辨率调整模块，并构建包含9.7万个数据源的多元化训练集。

这项突破引发学界对视觉推理本质的重新思考。传统观点认为提升图像质量是唯一路径，而DeepSeek证明，建立合适的空间表征体系可能更具决定性。其技术路线与OpenAI的"图像思维链"形成鲜明对比：前者追求推理透明性，将空间坐标显式化；后者侧重内部处理能力，保持视觉操作的"黑箱"特性。这种范式差异或将重塑多模态技术的发展方向。

更多>同类资讯

库克卸任前谆谆告诫：以用户为“北极星”，助力特努斯引领苹果新征程

05-01

OpenAI计划扩展Codex至移动端推出iPhone应用转型通用生产力工具

05-01

DeepSeek给AI装了根赛博手指，于是它能看见了

05-01

AI智能体违反「双重授权」越界操作？广州互联网法院公开审理并作出禁令

05-01

6G时代加速到来：通感一体、算智融合，空天地海覆盖不是梦

05-01

国云新篇：天翼云借Token布局开启AI时代智能服务新征程

05-01

iPhone 17系列热度空前，库克叹需求超预期，芯片内存成供应难题

05-01

DeepSeek另辟蹊径：以“赛博手指”破解多模态推理视觉指代难题

05-01

DeepSeek新论文揭秘：为AI装上“手指”，破解多模态推理瓶颈

05-01

AI智能体越界操作引纠纷广州互联网法院裁定叫停并划定法律边界

05-01

美的集团“双增”领跑白电三巨头，战略转型能否持续引领行业新风向？

05-01

中国AI大模型周调用量骤降：价格、模式与市场变化下的新挑战

05-01

高通拓展AI数据中心版图，携手超大规模云厂商，剑指英伟达算力市场

05-01

苹果Q2财报亮眼：营收1112亿美元，iPhone 17需求旺盛推动业绩创新高

05-01

AI融入生活：2025年峰会现场见证智能应用从想象走进日常

05-01

点击查看更多 +

全站最新

28年经典重生！smart精灵2号回归初心，精灵6号开启家庭出行新篇章

15万级纯电SUV新标杆！比亚迪宋Ultra EV以尖端技术重塑市场格局

现货黄金短线走高

谷歌收涨10%，单日市值暴增4210亿美元，创史上第二纪录

美股4月收官：纳指、标普500指数单月涨超10%！高通周五大涨超15%，中概指数涨超2%

美股异动｜英伟达收跌4.63% 市值失守5万亿美元多家美股科技公司透露芯片自研进展

热门内容

本栏最新

吉利中国星i-HEV智擎混动双车上市，以五大优势开启中国燃油车新纪元

宇树科技双臂人形机器人亮相，2.69万元起售，灵活操作未来可期

乐道L80入局大五座SUV市场，李斌：纯电空白将被填补，销量或迎拐点

硬核技术赋能出行新体验吉利中国星i-HEV智擎混动双车引领混动新风潮

传统智驾遇瓶颈：规则局限难突破，端到端大模型成车企新赛道焦点

ChatGPT问世后：全球互联网新增内容超三成现AI生成痕迹

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.