ITBear旗下自媒体矩阵:

DeepSeek视觉能力初亮相,技术论文撤稿背后藏着哪些秘密?

   时间:2026-05-01 20:36:08 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域近日出现一则引发广泛讨论的事件:专注于推理能力研发的DeepSeek团队在灰度测试多模态功能期间,发布后又悄然撤下了一篇技术论文。这篇题为《Thinking with Visual Primitives》的论文,揭示了该团队在视觉推理领域的创新探索,其突然下架的举动更引发了技术社区的诸多猜测。

与传统多模态模型不同,DeepSeek此次推出的视觉功能展现出独特的技术路径。测试用户反馈显示,该模型不仅能识别图像内容,更能将视觉信息与世界知识深度关联。有用户上传公司周边建筑照片后,模型准确识别出具体楼宇位置,且全程未依赖联网搜索功能。另一项受到关注的网页复刻能力,可将设计稿直接转化为可交互原型,大幅缩短了产品验证周期。

技术实现层面,DeepSeek提出了"视觉基元"概念。该框架突破了传统模型依赖自然语言描述的局限,通过引入点、边界框、路径坐标等空间标记,构建起精确的视觉推理机制。这种设计有效解决了复杂场景中的指代模糊问题——当图像包含多个相似对象时,模型能通过空间锚点实现稳定追踪,避免因语言描述歧义导致的推理错误。

具体应用场景中,该模型展现出三方面核心能力:在计数任务中,通过边界框标记实现密集场景的精准统计;空间推理时,利用视觉锚点进行多步关系判断;拓扑分析中,采用点坐标序列追踪路径连续性。测试数据显示,在800×800分辨率输入下,模型仅使用约90个视觉标记即可完成复杂推理,在保持性能的同时显著降低了计算资源消耗。

技术团队指出,当前实现仍存在三方面局限。首先是分辨率依赖问题,在微小目标或模糊边界场景中,视觉标记的准确性会受到影响;其次,该能力需通过特定触发词激活,尚未实现根据上下文自动调用;最关键的挑战在于复杂拓扑推理,模型在处理迷宫连通性、线条交叉消歧等任务时,仍面临跨场景泛化能力不足的问题。

值得关注的是,该模型在迷宫求解任务中展现出独特的反向推理机制。测试人员提供的案例显示,模型从终点反向追踪路径,再通过正向验证确保解法可行性,最终经过四轮推导演算得出正确结果。这种严谨的推理流程,与传统模型依赖直觉判断的模式形成鲜明对比。

论文撤下事件为这项技术蒙上神秘面纱。有分析认为,这可能与开源模型的安全性问题有关——该技术展现出的视觉推理精度,可能超出当前开源社区的技术管控范畴。也有观点指出,这或许是团队在进行技术路线调整前的临时举措。在官方未作出说明前,各种猜测仍将持续发酵。

这项探索为多模态领域开辟了新方向。通过将视觉信息转化为可推理的基元符号,DeepSeek试图构建更接近人类认知模式的AI系统。这种"先定位后思考"的设计理念,或许能解决当前视觉语言模型在复杂场景中的稳定性难题,为通用人工智能发展提供新的技术范式。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version