ITBear旗下自媒体矩阵：

滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek发布多模态模型技术报告：创新框架破解空间参照难题

时间：2026-05-01 00:31:24 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，多模态大语言模型（MLLMs）的发展备受瞩目。然而，这类模型在处理空间参照任务时，始终面临着一道难以跨越的障碍。近日，DeepSeek团队在GitHub平台正式发布其多模态大模型，并同步公开技术报告，提出了一种创新性的解决方案——基于“视觉原语”的推理框架，有望打破这一瓶颈。

当前，多模态大语言模型虽已取得显著进展，但主流的链式思维（CoT）推理范式仍局限于语言学范畴。为提升模型对视觉细节的识别能力，现有研究多聚焦于高分辨率图像裁剪等技术手段，试图弥合“感知鸿沟”。然而，DeepSeek团队指出，这一思路忽视了更为根本的限制——参照鸿沟。自然语言在描述复杂空间布局时，往往存在模糊性，难以提供精确指引。当模型需要执行涉及严谨空间参照的任务时，这种语言表达的局限性会导致推理链条断裂，出现逻辑崩溃。

针对这一难题，DeepSeek团队提出了“基于视觉原语的思考”（Thinking with Visual Primitives）框架。该框架将点、边界框等空间标记从单纯的视觉输入元素，提升为推理过程中的“基本思维单元”。通过将这些视觉原语直接嵌入模型的思考链路，模型在推理过程中具备了“指代”能力，能够将抽象的认知轨迹锚定到图像的具体物理坐标上，从而实现对空间关系的精确推演。

技术报告显示，该框架采用了高度优化的模型架构，具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低，DeepSeek的多模态模型在具有挑战性的计数和空间推理基准测试上，仍能与GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash等前沿模型相媲美。这一成果为开发更高效、更具可扩展性的System-2类多模态智能指明了方向。

值得一提的是，DeepSeek此前已上线“识图模式”。该模式与“快速模式”“专家模式”并列，并非简单的OCR文字识别，而是真正具备了多模态识别能力。这一功能的推出，进一步验证了DeepSeek在多模态领域的深厚积累和技术实力。

更多>同类资讯

Computex 2026：迈威尔科技获黄仁勋力挺，光互连业务或成新增长极

06-02

全球首个机器人通用AI世界模型公司ROBRAIN成立，引领机器人行业迈向新纪元

但在大量资本与技术聚焦语言 AI的同时，一个更深层的问题正在出现：如果未来机器人真正大规模进入现实世界，它们的大脑到底应该如何训练？ROBRAIN 创始人、董事长，同时也是AIROBO 创始人兼董事长先越…

06-02

AI机器人赛道风起云涌：OpenAI入局英伟达微美全息加速技术落地与产业变革

微美全息未来业绩将持续爆发，不断验证商业模式，根据其发布的2025年年报数据，全年净利润3.47亿元，同比飙升235.9%，微美全息有望成为AI+机器人赛道的全球领军企业，机器人技术壁垒与规模效应逐步显现，将…

06-02

宇树科技73天“闪电”过会，A股首家人形机器人上市企业启航新征程

在星图金融研究院副院长薛洪言看来，宇树科技近三年营收复合增长率超226%，同时人形机器人从几乎为零到撑起“半壁江山”，这本身就回答了市场对于企业是否仍在“烧钱”“炒概念”的疑问。这家与宇树科技同处一城的公司…

06-02

星海图G0.5架构创新引领潮流，七大评测基准全面领跑具身智能领域

G0.5 的选择是彻底去掉这道瓶颈，让同一套模型权重、在同一条自回归序列里，同时完成推理和动作生成。 G0.5 在 R1 Lite 上零样本执行「把毛巾放进洗手池」：在同一自回归流中，模型先生成思考（子任务…

06-02

达实智能2天2板涨21%：液冷服务器+机器人+AI应用助力，后续潜力几何？

该股强势的概念有：液冷服务器+机器人+AI应用在AI应用相关领域，AIoT平台概念活跃！在AIoT平台相关领域，公司AIoT物联网平台深度融合AI与IoT技术，搭载多项判别式AI与生成式AI算法，提供海量丰…

06-02

芯厨师AI炒菜机器人：以“三防”细节，为餐饮长期生意筑牢耐用根基

芯厨师用的是专为后厨油污环境定制的抗油屏幕——不是“防泼溅”，而是“沾满油污后，一擦即净，灵敏如初”。当设备厂商开始真正理解后厨的残酷环境，愿意在看不见的地方投入成本、死磕细节，餐饮老板才能真正从“设备焦虑”…

06-02

宇树单款人形机器人累计下线约11000台，IPO拟募资42.02亿加速智能机器人布局

IT之家 6 月 2 日消息，2 日（今天）下午，Unitree 宇树官方公众号发文宣布：截至 2026 年 5月，宇树单款人形机器人累计生产下线约 11000 台。该数量为一款双足人形的数量，不含其他型号…

06-02

京沈携手共谋智造新篇：机器人多领域应用合作开启新征程

座谈交流中，北京企业重点推介工业自动化、智能传感器等前沿技术产品，沈阳本地企业围绕人形机器人研发、智能制造升级、数字化转型等领域提出合作构想，双方就强强联合开展技术研发、产业链配套、成果落地转化、资源共享等方…

06-02

金戈新材申购在即：一季度净利劲增68% 产能扩张布局新兴赛道蓄势待发

数据显示，2023年至2025年公司产能利用率分别高达到138.86%、105.57%和94.96%，主要产品产销率连续三年均保持在95%以上的高位。在产品性能上，公司核心产品具备高分散性、高填充效率和高稳…

06-02

工厂大脑赋能智造：从领克工厂停线响应看工业智能化新未来

它不仅实现实时监控与异常处理，还能支撑管理层进行全局洞察与模拟推演，从根本上改变了人机协同的关系——不再是“人找数据”，而是“数据找人、问题找人”。在停线管理上，广域铭岛的工厂大脑构建起端到端的智能闭环体系…

06-02

工厂自动化改造：RS485与工业以太网如何抉择？共存方案还是全面替代？

新建项目或大规模产线改造，没有历史包袱，从一开始按工业以太网规划，长期维护成本更低；现有RS485网络节点数量多、轮询周期过长，已经成为生产效率的瓶颈；业务上有设备数据实时上云、远程运维、数字孪生等需求，需…

06-02

2纳米芯片：摩尔定律下的技术突围与多芯片封装新路径

从历史上看，实现这一目标的最佳方法是缩小晶体管、导线和存储单元的尺寸。从钴到钌的过渡似乎还要过一段时间，但我们将在底层互连和布线等特定领域看到它的应用。这实际上取决于中介层的尺寸以及我们将要生产的封装类型，…

06-02

融云斩获出海品牌与技术双奖 CEO董晗荣膺科创女性影响力殊荣

在扬帆出海主办的PAGC 2026大会上，融云一举拿下“出海热度品牌”与“优秀出海产品技术服务”两项金帆奖；同期，全球人工智能大会GAIC 2026将“开箱即用AI服务领军企业奖”授予融云的对话式AI分身；而…

06-02

智绘数字安全蓝图共筑网安创新生态 2026网络安全产业峰会在京圆满收官

本次峰会由中关村科技企业家协会网安创新企业分会（安创会）主办，中关村科技企业家协会、中关村软件应用技术创新联盟、中关村华安关键信息基础设施安全保护联盟共同指导，建恒信安、安盟信息、江民科技、上元信安、锐西科技…

06-02

点击查看更多 +

全站最新

长安汽车5月交付超20万辆新能源与海外交付成绩亮眼双增长

长城H10定名亮相：融合东方美学，打造方盒子SUV新标杆

AR-HUD还是传统仪表盘？新老司机的不同体验，适配才是关键！

搜狐教育盛典：启郡教育余志成谈成人教育，从“追随”到“架构”引领新方向

2025 Agent元年：小厂借AI东风，在垂直赛道加速崛起

北京首创境外旅客线上离境退税新模式京东助力购物退税体验全面升级

热门内容

本栏最新

孙正义：AI浪潮初启规模或超互联网50倍，长期趋势向好投资机遇凸显

全球首个机器人通用AI世界模型公司ROBRAIN成立引领机器人行业迈向新纪元

吉利中国星i-HEV太原节油赛落幕真实场景验证超低油耗实力

573天交付70万辆！全新吉利星愿续航升级，智驾加持引领A0级市场新潮流

奥迪E7X正式上市！智慧性能旗舰SUV，以创新实力开启电动新征程

鼎捷“企业智能运行空间”引领制造业变革，开启AI原生新时代

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.