国产大模型DeepSeek近日完成重要功能迭代,正式向测试用户开放大规模识图模式。这一升级标志着该模型在多模态交互领域取得突破性进展,成为继文本生成能力后又一核心产品竞争力。此前,该功能已于4月底启动小范围技术验证,经过一个月的优化调整后,于近日将测试范围扩展至更多用户群体,目前多数受邀账号已可在对话界面通过独立入口调用此功能。
据技术团队介绍,此次升级突破了传统OCR技术的局限,重点强化了视觉信息的深度解析能力。系统不仅能识别图片中的文字内容,更可对图像构成要素进行逻辑拆解,结合上下文语境理解视觉场景。测试数据显示,用户上传包含复杂图表、工业设备或生活场景的图片后,模型能够准确识别关键元素并生成结构化分析结果,支持跨媒介信息整合与交互。
在垂直应用场景中,该功能展现出显著优势。自动化办公领域,系统可自动解析合同文档中的印章位置、表格数据关联性等细节;工业质检场景中,能通过设备照片识别故障特征并匹配维修方案;学术研究方面,对实验数据图表的解析准确率较传统工具提升40%以上。这些突破使得DeepSeek在处理非结构化数据时,展现出接近人类视觉理解的综合能力。
行业分析师指出,此次升级反映了国产大模型的技术演进路径——在保持算力成本优势的基础上,通过模块化功能迭代快速补齐能力短板。相较于国际主流模型,DeepSeek的多模态解决方案更注重本土化场景适配,其轻量化架构设计使得相同算力投入下可支持更高频次的图像处理请求。随着测试范围逐步扩大,预计将引发金融、医疗、教育等领域对智能视觉解决方案的重新评估。
技术文档显示,当前内测版本已实现与文本生成模块的深度耦合。用户在对话过程中可随时切换图文输入模式,系统能够自动建立视觉信息与对话上下文的语义关联。这种交互方式突破了传统多模态系统"先识别后处理"的线性流程,为复杂任务处理提供了更自然的操作范式。开发团队透露,后续版本将进一步优化手绘草图识别、动态视频解析等高级功能。











