ITBear旗下自媒体矩阵:

DeepSeek“开眼”新突破:视觉原语双轨思维解锁多模态智能新路径

   时间:2026-05-01 21:34:53 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来重要突破,DeepSeek正式发布多模态技术报告《用视觉原语思考》,首次披露其最新识图模式的技术架构与训练方法。该模型通过将空间坐标引入思维链条,在视觉推理任务中展现出超越主流模型的性能表现,标志着多模态系统向类人认知模式迈出关键一步。

区别于传统语言模型的单轨推理机制,DeepSeek创新性地构建了"语言逻辑+空间坐标"的双轨思维系统。当处理图像时,模型会同步生成边界框或坐标点作为视觉锚点,并在后续推理中持续引用这些空间标记。例如在计数任务中,模型会先框选所有目标对象,再逐一验证;在迷宫导航中,每步移动都标注具体坐标位置。这种设计使空间关系推理的准确率提升37%,在复杂场景下的逻辑连贯性显著增强。

技术实现层面,该模型采用三级视觉压缩架构突破计算瓶颈。原始图像经Vision Transformer切分为14×14的视觉块后,通过3×3空间合并将2916个初始token压缩至324个,最终利用稀疏注意力机制进一步精简至81个KV条目。以756×756分辨率图像为例,整体压缩比达7056倍,较传统方法降低98.6%的存储需求。这种高效编码方式使模型在保持96%信息完整性的同时,推理速度提升4.2倍。

训练数据构建体现工程化思维。研究团队从9.7万个数据源中筛选出3.1万个高质量样本,通过自动化清洗排除乱码标签、全图覆盖框等异常标注,最终获得超4000万个精准样本。针对计数、空间推理、路径追踪等核心任务,特别设计了带有思维轨迹监督的合成数据集。例如在迷宫任务中,模型需同时输出坐标轨迹与探索策略,错误路径会导致整个推理链失效,这种强约束机制有效强化了空间决策能力。

强化学习阶段引入多维度奖励模型,将任务分解为探索进度、操作合规性、路径有效性等12个评估指标。在迷宫场景中,模型每正确移动一个单元格获得+0.5分奖励,非法穿越墙壁则扣除-2分,即使最终答案正确也会因过程违规被判定失败。这种稠密奖励机制迫使模型必须认真执行每个视觉操作,杜绝了靠猜测答案获取奖励的漏洞。

性能测试显示,该模型在视觉问答任务中以89.3%的准确率领先GPT-5.4等竞品,在密集计数任务中的错误率较Claude-Sonnet-4.6降低62%。特别在需要多步空间推理的拓扑导航任务中,模型展现出类人的路径规划能力,能够自主识别捷径并规避死胡同。研究团队承认,当前系统仍需依赖触发词激活视觉基元,在跨场景泛化能力方面存在提升空间。

技术文档同步公开了模型架构与训练细节,包括视觉编码器的参数配置、奖励函数的具体公式以及数据清洗的完整流程。开源社区已开始复现相关实验,有开发者通过调整空间压缩比例,在保持精度的前提下将推理速度进一步提升15%。这项研究为多模态系统开发提供了新范式,其核心思想正被应用于机器人导航、医学影像分析等需要精准空间认知的领域。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version