滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek视觉能力初亮相，技术论文撤稿背后藏着哪些秘密？

时间：2026-05-01 20:36:08 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域近日出现一则引发广泛讨论的事件：专注于推理能力研发的DeepSeek团队在灰度测试多模态功能期间，发布后又悄然撤下了一篇技术论文。这篇题为《Thinking with Visual Primitives》的论文，揭示了该团队在视觉推理领域的创新探索，其突然下架的举动更引发了技术社区的诸多猜测。

与传统多模态模型不同，DeepSeek此次推出的视觉功能展现出独特的技术路径。测试用户反馈显示，该模型不仅能识别图像内容，更能将视觉信息与世界知识深度关联。有用户上传公司周边建筑照片后，模型准确识别出具体楼宇位置，且全程未依赖联网搜索功能。另一项受到关注的网页复刻能力，可将设计稿直接转化为可交互原型，大幅缩短了产品验证周期。

技术实现层面，DeepSeek提出了"视觉基元"概念。该框架突破了传统模型依赖自然语言描述的局限，通过引入点、边界框、路径坐标等空间标记，构建起精确的视觉推理机制。这种设计有效解决了复杂场景中的指代模糊问题——当图像包含多个相似对象时，模型能通过空间锚点实现稳定追踪，避免因语言描述歧义导致的推理错误。

具体应用场景中，该模型展现出三方面核心能力：在计数任务中，通过边界框标记实现密集场景的精准统计；空间推理时，利用视觉锚点进行多步关系判断；拓扑分析中，采用点坐标序列追踪路径连续性。测试数据显示，在800×800分辨率输入下，模型仅使用约90个视觉标记即可完成复杂推理，在保持性能的同时显著降低了计算资源消耗。

技术团队指出，当前实现仍存在三方面局限。首先是分辨率依赖问题，在微小目标或模糊边界场景中，视觉标记的准确性会受到影响；其次，该能力需通过特定触发词激活，尚未实现根据上下文自动调用；最关键的挑战在于复杂拓扑推理，模型在处理迷宫连通性、线条交叉消歧等任务时，仍面临跨场景泛化能力不足的问题。

值得关注的是，该模型在迷宫求解任务中展现出独特的反向推理机制。测试人员提供的案例显示，模型从终点反向追踪路径，再通过正向验证确保解法可行性，最终经过四轮推导演算得出正确结果。这种严谨的推理流程，与传统模型依赖直觉判断的模式形成鲜明对比。

论文撤下事件为这项技术蒙上神秘面纱。有分析认为，这可能与开源模型的安全性问题有关——该技术展现出的视觉推理精度，可能超出当前开源社区的技术管控范畴。也有观点指出，这或许是团队在进行技术路线调整前的临时举措。在官方未作出说明前，各种猜测仍将持续发酵。

这项探索为多模态领域开辟了新方向。通过将视觉信息转化为可推理的基元符号，DeepSeek试图构建更接近人类认知模式的AI系统。这种"先定位后思考"的设计理念，或许能解决当前视觉语言模型在复杂场景中的稳定性难题，为通用人工智能发展提供新的技术范式。

更多>同类资讯

荣耀黄非：AI正跨越工具阶段，AgenticOS或成未来操作系统新方向

05-17

月耗6000亿Token、130万美元！OpenClaw创始人：3人团队如何支撑百万用户服务

05-17

长安汽车否认计划采用千里科技智驾方案

05-17

彭承志院士谈量子科技：秉持好奇心，人类定能在时代浪潮中绽放光彩不被AI取代

05-17

从露珠到AI：全息世界模型解锁万物对抗混沌的底层生存法则

05-17

3人团队携百名AI“码农”月耗130万美元，OpenAI买单，软件开发新未来已来？

05-17

中国移动河南公司Token Plan升级：算力服务双轨并行普惠全民数字生活

05-17

河南“VR+5G警务实战系统”亮相世界数字教育大会贡献智慧教育新方案

05-17

长安汽车回应与千里科技合作传闻：暂无计划，坚持智驾技术自主可控

05-17

苏州机器人“训练场”火热：聚焦五大能力 140万条数据助力产业升级

05-17

APEC中国年聚焦苏州：具身智能机器人开启长三角与世界的创新对话

05-17

3人领衔100个AI程序员，月耗130万美元，OpenAI买单，软件开发新变革？

05-17

数通链谷AI读书会：共探科技前沿，以知识赋能科创产业新发展

05-17

AI赋能电影：人机共生下技术为翼艺术为魂坚守真实底线

05-17

AI重塑教育与职场：北大教授指路，人类如何筑牢价值“护城河”？

05-17

点击查看更多 +

全站最新

2026年PI与PET胶带行业变革：技术驱动下耐温防静电的供应商新选择

比亚迪方程豹豹8和豹5闪充版：云辇-P Ultra加持，三轮行驶挑战显实力

小米YU7“火山灰”配色官图亮相！高纯度灰调设计，5月底将正式发布

科大讯飞AI学习机深度评测：护眼设计搭配学习功能，哪款更适合孩子？

科大讯飞智能办公本深度评测：以科技赋能办公高效体验触手可及

七年坚守初心不改：科大讯飞“听见AI的声音”升级，为听障群体架沟通桥梁

热门内容

本栏最新

MG 07双动力轿跑首发亮相：以创新设计科技配置重塑新能源轿跑新格局

2026新能源线束加工设备怎么选？广东银钢智能凭硬核实力成行业优选

百城节油赛南昌首启，吉利中国星i-HEV智擎混动以实力书写节油新篇

比亚迪腾势品牌迎里程碑第50万台车N9闪充版下线 5月18日将上市

10-15万级插混家轿新选择！吉利银河星耀7这些亮点能否打动你？

一季度数字产业开局良好：收入利润双增，互联网业务与算力基建齐头并进

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.