近期,国产大模型领域迎来密集更新,DeepSeek、Kimi、阿里等头部厂商接连发布新模型或开源项目,推动中国大模型技术在国际社交平台引发广泛关注。据行业人士透露,下周还将有更多国产模型产品陆续亮相,技术竞赛进入白热化阶段。
1月27日,DeepSeek与Kimi同日发布新模型,引发行业高度关注。Kimi推出的K2.5模型被定义为“迄今最智能、最全能”的模型,支持原生多模态架构,可同时处理视觉与文本输入,并兼容思考与非思考模式、对话与Agent任务。DeepSeek则发布了OCR2模型,采用创新的DeepEncoder V2方法,使AI能够动态重排图像部分,模拟人类视觉逻辑流程,在处理复杂布局图片时表现优于传统视觉语言模型。该模型主要服务于大语言模型的图像文档读取及批量PDF处理场景,标志着DeepSeek在多模态领域的技术深化。
阿里近期也开源了多款模型,包括全系列语音合成模型Qwen3-TTS,以及专为多模态信息检索设计的Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列。这些更新体现了阿里“全尺寸、全模态、全场景”的战略布局,尤其在多模态和跨模态领域加速迭代。行业专家指出,当前大模型竞争已从参数规模转向工程优化,推理性能提升、成本降低和训练门槛下降成为核心趋势。
性价比成为企业选择模型的关键因素。暖哇科技首席数据官陈鸿表示,2025年初,其团队曾使用海外ChatGPT 4.5,但DeepSeek推出后,尽管效果略逊,价格仅为前者的十分之一,迅速成为首选。他透露,2025年客户token调用量增长多倍,但费用大幅下降,国内主流商用模型API已进入“厘时代”。目前,暖哇科技在保险业务中主要使用豆包模型处理对话场景,DeepSeek V3.2模型处理高性价比任务,编程领域则采用智谱模型,精调模型基于千问32B版本开发。
技术迭代加速的同时,行业面临工程化挑战。大模型生态社区OpenCSG创始人陈冉认为,密集发布标志着行业进入“工程化成熟期”,竞争焦点从规模转向效率与落地能力。枫清科技创始人兼CEO高雪峰指出,开源技术正在推动大模型从巨头专属向产业基础设施转变,成本下降将使Agentic AI智能体从“能对话”迈向“能执行、创造价值”。但他也提醒,模型幻觉、可解释性和推理能力薄弱仍是待解难题。
企业需求推动技术突破方向。陈鸿认为,未来模型需实现推理能力的动态优化,避免不必要的算力消耗;多模态技术需提升落地精度,减少“抽卡式”生成的不确定性。高雪峰预测,通用大模型将呈现强者恒强局面,中小玩家需聚焦制造、金融、教育、医疗等细分领域。Kimi创始人杨植麟透露,其模型设计围绕提升token效率和延长长上下文展开,以降低预训练损耗并支持复杂Agent任务。
产业链协同成为降低成本的关键。商汤小浣熊负责人贾安亚指出,企业客户对解决方案的全面性和性能要求极高,需兼顾延迟、精度和性价比。浙江算力科技董事长钱敏勇认为,推理成本降低短期内依赖工程优化,长期需新型硬件创新。炜烨智算董事长兼CEO周韡韡则表示,AI已进入“干中学”阶段,基础设施将向基模生态一体化发展,行业竞争重心转向推理能力。











