滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek“开眼”新突破：视觉原语双轨思维解锁多模态智能新路径

时间：2026-05-01 21:34:53 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域迎来重要突破，DeepSeek正式发布多模态技术报告《用视觉原语思考》，首次披露其最新识图模式的技术架构与训练方法。该模型通过将空间坐标引入思维链条，在视觉推理任务中展现出超越主流模型的性能表现，标志着多模态系统向类人认知模式迈出关键一步。

区别于传统语言模型的单轨推理机制，DeepSeek创新性地构建了"语言逻辑+空间坐标"的双轨思维系统。当处理图像时，模型会同步生成边界框或坐标点作为视觉锚点，并在后续推理中持续引用这些空间标记。例如在计数任务中，模型会先框选所有目标对象，再逐一验证；在迷宫导航中，每步移动都标注具体坐标位置。这种设计使空间关系推理的准确率提升37%，在复杂场景下的逻辑连贯性显著增强。

技术实现层面，该模型采用三级视觉压缩架构突破计算瓶颈。原始图像经Vision Transformer切分为14×14的视觉块后，通过3×3空间合并将2916个初始token压缩至324个，最终利用稀疏注意力机制进一步精简至81个KV条目。以756×756分辨率图像为例，整体压缩比达7056倍，较传统方法降低98.6%的存储需求。这种高效编码方式使模型在保持96%信息完整性的同时，推理速度提升4.2倍。

训练数据构建体现工程化思维。研究团队从9.7万个数据源中筛选出3.1万个高质量样本，通过自动化清洗排除乱码标签、全图覆盖框等异常标注，最终获得超4000万个精准样本。针对计数、空间推理、路径追踪等核心任务，特别设计了带有思维轨迹监督的合成数据集。例如在迷宫任务中，模型需同时输出坐标轨迹与探索策略，错误路径会导致整个推理链失效，这种强约束机制有效强化了空间决策能力。

强化学习阶段引入多维度奖励模型，将任务分解为探索进度、操作合规性、路径有效性等12个评估指标。在迷宫场景中，模型每正确移动一个单元格获得+0.5分奖励，非法穿越墙壁则扣除-2分，即使最终答案正确也会因过程违规被判定失败。这种稠密奖励机制迫使模型必须认真执行每个视觉操作，杜绝了靠猜测答案获取奖励的漏洞。

性能测试显示，该模型在视觉问答任务中以89.3%的准确率领先GPT-5.4等竞品，在密集计数任务中的错误率较Claude-Sonnet-4.6降低62%。特别在需要多步空间推理的拓扑导航任务中，模型展现出类人的路径规划能力，能够自主识别捷径并规避死胡同。研究团队承认，当前系统仍需依赖触发词激活视觉基元，在跨场景泛化能力方面存在提升空间。

技术文档同步公开了模型架构与训练细节，包括视觉编码器的参数配置、奖励函数的具体公式以及数据清洗的完整流程。开源社区已开始复现相关实验，有开发者通过调整空间压缩比例，在保持精度的前提下将推理速度进一步提升15%。这项研究为多模态系统开发提供了新范式，其核心思想正被应用于机器人导航、医学影像分析等需要精准空间认知的领域。

更多>同类资讯

SNEC2026探展：AI浪潮席卷新能源，智能体时代谁主沉浮？

06-04

远景田庆军“五全+五化”论道：新能源3.0时代，引领行业高质量发展新路径

06-04

10万级纯电SUV新标杆登场，MG 4X凭技术平权掀起市场新变革

06-04

传统车企搭上AI储能快车：摩根士丹利与Evercore看好其开启新增长篇章

06-04

李飞飞厘清「世界模型」定义，为AI领域发展指明新方向

06-04

松江格尔软件领跑行业！“AI大模型安全护栏系统”获国家级“优秀级”认证

06-04

iOS 27升级名单曝光，这几款iPhone惨遭苹果“抛弃”

06-04

火山引擎MaaS年营收目标调高至150亿元:视频模型Seedance2.0单月收入突破10亿元

06-04

欧盟计划制定数据能效标准，以应对 AI 带来的能耗挑战

06-04

买下精准商业预测能力！英伟达秘密收购初创公司 Kumo AI，三位顶尖联创已低调入职

06-04

零门槛开启AI新体验，荣耀MagicBook 14 2026“养虾本”深度实测来袭

在实测中，我们上传了一段1小时57分钟的会议录音，要求生成带时间轴、包含主要讨论内容、达成共识和待办事项的会议纪要，YOYO Claw仅用4分42秒便完成了任务，输出的纪要结构清晰、重点突出，待办事项标注准确…

06-04

AI芯片需求激增助力！阿斯麦市值创新高成欧洲史上市值最高公司

06-04

豆包将推专业版服务，日常问答生图语音等基础功能仍免费畅享

06-04

Uber新总裁主导人力资源部门裁员23% 精简架构否认与AI有关

IT之家 6 月 4 日消息，在新任总裁吉尔 · 黑泽尔贝克的主导下，Uber 正对人力资源部门裁员 23%，以此精简运营架构。 Uber于本周证实，已针对员工使用的 AI 智能体工具设置分级消费限额。 U…

06-04

华为智能光伏战略&新品发布会：以技术创新引领新型电力系统构建

面向新型电力系统的新征程，华为董事、华为数字能源总裁侯金龙发表了“构建智能世界的绿电驱动力”主题演讲，他表示：“全球能源转型正聚焦生产侧清洁能源替代和消费侧电气化两大核心主线。华为数字能源智能光伏产品线总…

06-04

点击查看更多 +

全站最新

华为系创业新势力崛起：王云鹤团队AI Agent项目获1亿美元估值背后

《2026潮数码情绪白皮书》：洞察数码消费新趋势，解锁品牌营销新路径

玉柴全球首台纯氨内燃机点火成功，悍虎专用油助力零碳动力技术落地

启境轩伟详解GT7电池安全：极限测试+多重防护守护安全底线

5月车市新动向：高阶辅助驾驶加速“飞入”15万元主流家用车市场

Uber豪掷近5亿美元布局自动驾驶与Nuro按里程碑分阶段推进合作

热门内容

本栏最新

10万级纯电SUV新标杆登场，MG 4X凭技术平权掀起市场新变革

梅赛德斯 - AMG全新纯电GT跑车：2.1秒破百，续航补能皆惊艳

五菱新能源智能工厂入选广西案例集引领制造业智改数转新风潮

千亿现金储备加持理想汽车“换挡”前行稳筑技术护城河

吉利中国星i-HEV太原节油赛落幕 2L级油耗实测验证混动硬核实力

技术平权+原创设计，MG 4X以差异化破局10万级家用纯电市场

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.