ITBear旗下自媒体矩阵:

DeepSeek新模型引AI圈热议:视觉路线或成大模型新方向,Karpathy等大佬怎么看?

   时间:2025-10-21 20:12:12 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,一款名为DeepSeek-OCR的开源模型在AI领域掀起热议。该模型通过将文本转换为视觉token的方式,实现了对长文本的高效压缩与处理,引发了学界与产业界的广泛关注。GitHub平台显示,项目上线首日便收获超过4000个Star,社区活跃度持续攀升。

据技术文档披露,DeepSeek-OCR可将千字级文本压缩为百个视觉token,压缩率达十倍的同时保持97%的精度。实验数据显示,单块英伟达A100显卡每日可处理20万页文档,这种处理效率为解决大模型长上下文难题提供了新思路。研究团队指出,视觉token的压缩效率较传统文本token提升显著,理论上万字文本仅需约1500个视觉token即可完整表征。

学术界对技术路径的溯源显示,2022年哥本哈根大学等机构在《Language Modelling with Pixels》论文中已提出类似构想。该研究构建的PIXEL架构通过像素重建训练语言模型,后续CVPR 2023、NeurIPS 2024等顶会论文持续完善这一方向。不过,DeepSeek团队通过技术创新将视觉token的压缩效率提升至新高度,这种工程突破仍被视为重要进展。

技术社区的实践验证迅速展开。Django框架联合创始人Simon Willison仅用4个提示词、耗时40分钟便在英伟达Spark硬件上完成部署,科技视频博主NiceKate AI则成功将其移植至Mac平台。这些实践表明,该模型在多种硬件环境下的适配性良好。

争议声音同样存在。meta研究员Lucas Beyer直言技术路径缺乏渐进性,与人类认知模式存在差异。部分研究者指出,视觉token的引入可能影响模型的语言表达能力,迫使系统更多依赖视觉思维。这种范式转换对模型下游认知能力的影响,尚需更多实验验证。

技术融合的想象空间被进一步拓展。有研究者设想,若将该技术与稀疏注意力机制结合,可能使模型上下文窗口扩展至千万级token。届时,企业可将完整知识库预加载至模型,实现类似人类专家级的知识调用能力。这种设想引发对"工作记忆"容量提升的热烈讨论。

在跨文化交流层面,该模型的中英文示例引发海外研究者兴趣。论文中引用的"先天下之忧而忧,后天下之乐而乐"等中文名句,成为技术社区理解东方智慧的特殊窗口。这种文化碰撞现象,折射出AI技术发展中的多元文化互动趋势。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version