ITBear旗下自媒体矩阵:

DeepSeek发布多模态推理新模型:以视觉原语破局,多项测试超越主流竞品

   时间:2026-05-01 12:03:45 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来重要突破,DeepSeek在GitHub平台正式开源一款创新型多模态推理模型,并同步发布技术报告《Thinking with Visual Primitives(以视觉原语思考)》。该模型基于DeepSeek V4-Flash架构开发,通过引入空间坐标机制重新定义了多模态推理范式,在密集场景下的视觉定位精度实现质的飞跃。

研究团队指出,现有模型普遍存在"指代鸿沟"困境:当面对复杂图像时,自然语言描述的模糊性会导致注意力漂移。例如在描述"左侧红色物体"时,模型可能因场景中存在多个相似目标而无法精准定位,这种语义与视觉的错位直接影响推理准确性。传统解决方案聚焦于提升图像分辨率,但未能解决"看得见"与"说得清"的本质差异。

新模型的核心创新在于将空间坐标嵌入推理过程。在思维链构建阶段,模型每提及视觉对象即同步输出精确坐标,形成"描述-定位"的闭环系统。以野生动物识别场景为例,系统会生成"棕熊[452,23,804,411]正在攀爬树木"的带坐标描述,通过空间锚点消除歧义。这种设计使坐标从传统的事后标注转变为推理过程的有机组成部分。

架构优化方面,研究团队实现7056倍的视觉信息压缩。原始756×756图像经视觉变换器(ViT)处理后生成2916个图像块,通过3×3空间合并压缩至324个token,再利用压缩稀疏注意力机制将键值缓存进一步压缩4倍,最终仅保留81个视觉条目。相较同类模型,Claude Sonnet 4.6需要870个条目,Gemini-3-Flash更需要1100个,显示出显著的计算效率优势。

训练数据构建采用严格筛选机制。研究人员从近10万个目标检测数据中精选3.17万个高质量样本,通过程序化生成技术扩展出4000万条训练数据,覆盖计数、空间推理、迷宫导航和路径追踪四大任务类别。后训练阶段采用双专家模型策略,分别训练边界框定位和点坐标预测模块,经强化学习优化后通过策略蒸馏合并为统一模型。

基准测试显示显著性能提升。在计数任务中,Pixmo-Count模型取得89.2%的精确匹配率,超越Gemini-3-Flash的88.2%,较GPT-5.4和Claude Sonnet 4.6分别高出12.6和20.5个百分点。拓扑推理测试中,迷宫导航得分达66.9%,较第二名GPT-5.4提升16.3个百分点;路径追踪任务以56.7%的得分领先GPT-5.4达10.2个百分点。这些数据验证了空间坐标机制在复杂推理任务中的有效性。

当前模型仍存在改进空间。研究人员承认,系统需要特定触发词才能激活视觉原语机制,在超精细粒度场景下的坐标精度有待提升,跨场景泛化能力也需要持续优化。这些局限性为后续研究指明了方向,特别是在动态场景适应和坐标生成鲁棒性方面存在突破可能。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version