滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

DeepSeek新模型发力：小数据少显卡，也能与巨头模型掰手腕

时间：2025-12-03 18:25:06 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能模型竞争愈发激烈的当下，开源模型与闭源模型的差距曾一度呈现扩大趋势。然而，DeepSeek的最新动作，为开源模型阵营注入了一剂强心针。

12月1日，DeepSeek一次性发布了两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。这一举措瞬间在行业内引发关注。DeepSeek V3.2在性能上已能与GPT-5展开激烈角逐，而高性能版的DeepSeek-V3.2-Speciale更是表现惊艳，直接超越GPT系列，与国际公认的闭源模型天花板Gemini打得难解难分。不仅如此，这两款模型还在IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）等一系列权威赛事中斩获金牌，实力不容小觑。

值得注意的是，这是DeepSeek今年发布的第九款模型。尽管备受期待的R2尚未现身，但此次两款新模型的发布，已然展现出DeepSeek强大的技术实力和创新能力。那么，DeepSeek究竟是如何凭借更小的数据量和更少的显卡资源，打造出能与国际巨头抗衡的模型呢？

深入探究其背后的技术革新，会发现DeepSeek此次带来了不少新思路。其中，稀疏注意力（DSA）的正式应用堪称一大亮点。在之前的V3.2-EXP版本中，稀疏注意力仅处于测试阶段，主要验证其对模型性能的影响。而此次，DeepSeek果断将其纳入主力模型，为模型性能提升带来了显著效果。

在日常与大模型交互时，我们常常会遇到这样的困扰：对话内容过长时，模型容易出现逻辑混乱甚至直接拒绝继续对话的情况。这其实是传统大模型注意力机制存在的弊端。在传统机制下，每个新生成的token都需要与前面的所有token进行计算，这就导致句子长度与模型计算量呈平方关系增长。例如，句子长度翻倍，计算量就变为原来的四倍；长度变为三倍，计算量则飙升至九倍，极大地限制了模型处理长文本的能力。

为了解决这一问题，DeepSeek为大模型引入了类似“固定页数目录”的稀疏注意力机制。这一机制如同为模型提供了阅读指南，帮助其快速定位关键信息。在处理文本时，模型只需计算当前token与“目录”之间的关系，就像阅读时先浏览目录，再根据兴趣深入阅读具体章节一样。这种改进使得模型处理长文本的能力大幅提升。从相关数据对比图中可以明显看出，随着句子长度增加，采用传统注意力机制的V3.1推理成本急剧上升，而使用稀疏注意力的V3.2则基本保持稳定，大大节省了计算资源。

除了在注意力机制上进行创新，DeepSeek还高度重视开源模型的后训练工作。大模型的训练过程，类似于人类从小学到高考的学习历程。大规模预训练阶段，如同从小学到高二的知识积累，无论是闭源模型还是开源模型，都在这一阶段认真“学习”。然而，到了高考冲刺阶段，也就是模型的后训练阶段，闭源模型通常会投入大量资源，聘请“名师”进行强化学习，以提升模型在考试中的表现。相比之下，开源模型在这一阶段的投入相对较少，导致模型虽然具备基础能力，但在应对难题时表现欠佳。

为了弥补这一短板，DeepSeek设计了一套全新的强化学习协议。在预训练结束后，投入超过总训练算力10%的资源为模型进行专项训练，相当于为开源模型也开设了“名师辅导班”。同时，DeepSeek还推出了具有超长思考能力的特殊版本——DeepSeek V3.2 Speciale。传统大模型由于上下文长度限制，在训练过程中会对深度思考内容进行标注惩罚，思考内容过长就会被扣分。而DeepSeek V3.2 Speciale则打破了这一限制，鼓励模型自由思考，不受思考时长和方式的约束。这一创新使得DeepSeek V3.2 Speciale在与Gemini 3的较量中表现出色。

在智能体能力方面，DeepSeek同样下足了功夫。一方面，为了提升模型的基础能力，DeepSeek构建了一个虚拟环境，合成了大量数据用于辅助训练。具体而言，DeepSeek-V3.2使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景以及5908个真实代码解释任务进行后训练。另一方面，DeepSeek优化了模型使用工具的流程。以往模型在调用外部工具时，会将思考过程与工具调用分割开来，导致每次调用工具后都需要重新构建推理链，效率低下。例如，即使是查询“今天几月几号”这样简单的问题，模型也需要从头开始推理。而DeepSeek V3.2对这一逻辑进行了彻底重构，在工具调用过程中，模型的思考过程得以保留，只有当用户提出新问题时才会重置推理；工具调用记录和结果也会像聊天记录一样保留在上下文中，大大提高了模型使用工具的效率。

尽管DeepSeek此次取得了一系列令人瞩目的成果，但并非完美无缺。在论文中，DeepSeek坦诚地指出了自身存在的问题。例如，DeepSeek V3.2 Speciale在与谷歌Gemini 3 Pro的对决中，虽然能够打成平手，但在回答相同问题时，DeepSeek需要消耗更多的token。通过实际测试发现，对于一道复杂题目，Gemini 3 Pro仅需4972个token就能给出答案，而DeepSeek V3.2 Speciale则需要8077个token，token消耗量高出近六成。

然而，从成本角度来看，DeepSeek依然具有明显优势。以刚才的测试为例，DeepSeek 8000多个token仅花费0.0032美元，而谷歌的5000个token却需要0.06美元，成本高出约20倍。这一对比显示出DeepSeek在性价比方面的巨大潜力。

近期，开源模型与闭源模型的差距问题备受关注。但DeepSeek凭借自身的努力和创新，不断缩小这一差距。其一系列节省算力、优化数据的操作，让人联想到OpenAI前灵魂人物Ilya Sutskever的观点。他认为，单纯依靠堆砌模型参数并非长远之计。回顾人工智能发展历程，AlexNet仅使用两块GPU，Transformer实验规模大多在8 - 64块GPU之间，ResNet也是如此，没有哪篇论文依赖庞大的集群才能完成。相比之下，对算法的研究同样至关重要。DeepSeek正是沿着这一方向不断探索，从V2的MoE架构，到V3的多头潜在注意力（MLA），再到如今DeepSeek Math V2的自验证机制以及V3.2的稀疏注意力（DSA），每一次进步都源于对算法的深入研究与创新，而非单纯依靠参数规模的扩张。

更多>同类资讯

鸿蒙智行OTA升级在即！华为乾崑ADS4.1版本将解锁智能驾驶新功能与体验

根据知名博主“电车小飞”的透露，预计该版本将在1月20日左右分批推送，而到1月30日则将进行大规模推广。新版本在ADSMax超阶版的基础上，针对城乡结合部的拥堵路段进行了优化，显著提升了复杂路况下的智驾体验与…

01-18

广东六城智能网联汽车道路测试互认互通共筑产业创新发展新篇章

01-18

特斯拉得州锂精炼厂投产，马斯克赞其技术领先，助力电池供应链升级

01-18

联想moto X70 Air Pro携手中国国家地理，1月20日发布定格四季影像新机

01-18

谷歌“Nano Banana”AI生图模型命名大揭秘：源于产品经理的趣味昵称融合

01-18

小米运动健康App接入蚂蚁阿福：支持AI初步健康建议

01-18

消息称华为 Mate 80 单品激活 150 万，逆袭成年底国产旗舰第一

01-18

鸿蒙智行OTA升级将至，华为乾崑ADS4.1版本多项功能升级提升行车安全

01-18

章泽天借播客破局：从豪门标签到真实自我，能否重塑公众认知？

01-18

百万粉丝博主“稚晖君”发上纬新材机器人视频监管问询公司回应独立性等问题

01-18

从扭秧歌到空翻卡点！人形机器人再登春晚，科技与艺术碰撞引期待

01-18

谷歌Chrome浏览器“增强保护”端侧AI模型可关闭，操作指南来了

01-18

小米运动健康App牵手蚂蚁阿福：AI助力健康管理，数据同步更便捷

01-18

辍学神话难掩学历价值：奥特曼虽未毕业，OpenAI却名校人才济济一堂

01-18

当AI应用遍地开花，上海企业为何坚守基础大模型？答案藏在未来里

01-18

点击查看更多 +

全站最新

理想汽车2025年辅助驾驶成绩亮眼：超60亿公里里程千万次安全守护

120天交付破5万！蔚来全新ES8凭实力书写纯电SUV市场新佳绩

家庭娱乐新选择：五款热门电视推荐，助您打造极致观影体验

2026轻薄本选购指南：三款高性能便携机型，满足办公娱乐多样需求

超高清电视怎么选？康佳小米酷开KMTV品牌对比，帮你找到心仪之选

小米投影仪系列：画质音效双优，便携智能兼备，打造家庭娱乐新体验

热门内容

本栏最新

家庭娱乐新选择：五款热门电视推荐，助您打造极致观影体验

2026轻薄本选购指南：三款高性能便携机型，满足办公娱乐多样需求

超高清电视怎么选？康佳小米酷开KMTV品牌对比，帮你找到心仪之选

小米投影仪系列：画质音效双优，便携智能兼备，打造家庭娱乐新体验

“棋圣”聂卫平北京告别仪式举行，雷军送花圈并社交平台发文沉痛悼念

从活字印刷到汽车革新：长城归元平台开启原生AI造车新纪元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.