滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek发布多模态推理新模型：以视觉原语破局，多项测试超越主流竞品

时间：2026-05-01 12:03:45 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域迎来重要突破，DeepSeek在GitHub平台正式开源一款创新型多模态推理模型，并同步发布技术报告《Thinking with Visual Primitives（以视觉原语思考）》。该模型基于DeepSeek V4-Flash架构开发，通过引入空间坐标机制重新定义了多模态推理范式，在密集场景下的视觉定位精度实现质的飞跃。

研究团队指出，现有模型普遍存在"指代鸿沟"困境：当面对复杂图像时，自然语言描述的模糊性会导致注意力漂移。例如在描述"左侧红色物体"时，模型可能因场景中存在多个相似目标而无法精准定位，这种语义与视觉的错位直接影响推理准确性。传统解决方案聚焦于提升图像分辨率，但未能解决"看得见"与"说得清"的本质差异。

新模型的核心创新在于将空间坐标嵌入推理过程。在思维链构建阶段，模型每提及视觉对象即同步输出精确坐标，形成"描述-定位"的闭环系统。以野生动物识别场景为例，系统会生成"棕熊[452,23,804,411]正在攀爬树木"的带坐标描述，通过空间锚点消除歧义。这种设计使坐标从传统的事后标注转变为推理过程的有机组成部分。

架构优化方面，研究团队实现7056倍的视觉信息压缩。原始756×756图像经视觉变换器（ViT）处理后生成2916个图像块，通过3×3空间合并压缩至324个token，再利用压缩稀疏注意力机制将键值缓存进一步压缩4倍，最终仅保留81个视觉条目。相较同类模型，Claude Sonnet 4.6需要870个条目，Gemini-3-Flash更需要1100个，显示出显著的计算效率优势。

训练数据构建采用严格筛选机制。研究人员从近10万个目标检测数据中精选3.17万个高质量样本，通过程序化生成技术扩展出4000万条训练数据，覆盖计数、空间推理、迷宫导航和路径追踪四大任务类别。后训练阶段采用双专家模型策略，分别训练边界框定位和点坐标预测模块，经强化学习优化后通过策略蒸馏合并为统一模型。

基准测试显示显著性能提升。在计数任务中，Pixmo-Count模型取得89.2%的精确匹配率，超越Gemini-3-Flash的88.2%，较GPT-5.4和Claude Sonnet 4.6分别高出12.6和20.5个百分点。拓扑推理测试中，迷宫导航得分达66.9%，较第二名GPT-5.4提升16.3个百分点；路径追踪任务以56.7%的得分领先GPT-5.4达10.2个百分点。这些数据验证了空间坐标机制在复杂推理任务中的有效性。

当前模型仍存在改进空间。研究人员承认，系统需要特定触发词才能激活视觉原语机制，在超精细粒度场景下的坐标精度有待提升，跨场景泛化能力也需要持续优化。这些局限性为后续研究指明了方向，特别是在动态场景适应和坐标生成鲁棒性方面存在突破可能。

05-01

DeepSeek另辟蹊径：用“赛博手指”破解视觉推理难题，效率与透明度双提升

05-01

库克卸任前谆谆告诫：以用户为“北极星”，助力特努斯引领苹果新征程

05-01

OpenAI计划扩展Codex至移动端推出iPhone应用转型通用生产力工具

05-01

DeepSeek给AI装了根赛博手指，于是它能看见了

05-01

AI智能体违反「双重授权」越界操作？广州互联网法院公开审理并作出禁令

05-01

6G时代加速到来：通感一体、算智融合，空天地海覆盖不是梦

05-01

国云新篇：天翼云借Token布局开启AI时代智能服务新征程

05-01

iPhone 17系列热度空前，库克叹需求超预期，芯片内存成供应难题

05-01

DeepSeek另辟蹊径：以“赛博手指”破解多模态推理视觉指代难题

05-01

DeepSeek新论文揭秘：为AI装上“手指”，破解多模态推理瓶颈

05-01

AI智能体越界操作引纠纷广州互联网法院裁定叫停并划定法律边界

05-01

美的集团“双增”领跑白电三巨头，战略转型能否持续引领行业新风向？

05-01

中国AI大模型周调用量骤降：价格、模式与市场变化下的新挑战

05-01

高通拓展AI数据中心版图，携手超大规模云厂商，剑指英伟达算力市场

05-01

点击查看更多 +

全站最新

28年经典重生！smart精灵2号回归初心，精灵6号开启家庭出行新篇章

15万级纯电SUV新标杆！比亚迪宋Ultra EV以尖端技术重塑市场格局

现货黄金短线走高

谷歌收涨10%，单日市值暴增4210亿美元，创史上第二纪录

美股4月收官：纳指、标普500指数单月涨超10%！高通周五大涨超15%，中概指数涨超2%

美股异动｜英伟达收跌4.63% 市值失守5万亿美元多家美股科技公司透露芯片自研进展

热门内容

本栏最新

吉利中国星i-HEV智擎混动双车上市，以五大优势开启中国燃油车新纪元

宇树科技双臂人形机器人亮相，2.69万元起售，灵活操作未来可期

乐道L80入局大五座SUV市场，李斌：纯电空白将被填补，销量或迎拐点

硬核技术赋能出行新体验吉利中国星i-HEV智擎混动双车引领混动新风潮

传统智驾遇瓶颈：规则局限难突破，端到端大模型成车企新赛道焦点

ChatGPT问世后：全球互联网新增内容超三成现AI生成痕迹

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.