中国人工智能领域的明星企业DeepSeek近期宣布了其旗舰大语言模型的重大更新,新版本针对即将面世的新一代国产芯片进行了专门优化。
据DeepSeek介绍,此次升级采用了名为UE8M0的新型数据类型来训练V3.1模型,这是对现有FP8格式的一种扩展,已被英伟达等业界巨头所支持。DeepSeek在微信平台上澄清,这一变化是为了更好地适配即将推出的国产芯片,指出“UE8M0 FP8专为新一代国产芯片设计”。
使用较低精度的数据类型带来了诸多优势,包括减少内存占用和提升推理及训练速度。值得注意的是,DeepSeek之前已经在使用FP8格式中的E4M3类型。因此,转向UE8M0更多是为了确保与新一代芯片的兼容性,而非单纯追求效率提升。
虽然DeepSeek未透露新模型所适配芯片的具体制造商,但有报道称这家AI初创公司与华为有着紧密合作,利用华为的昇腾系列神经处理单元(NPU)进行模型训练和推理。华为的昇腾910C为其CloudMatrix机架系统提供动力,但目前不支持FP8格式,这或许意味着华为正在研发性能更强大的加速器。
有消息指出,DeepSeek曾尝试在华为昇腾加速器上训练其下一代R2模型,但因遇到困难而改用英伟达的H20加速器。不过,DeepSeek目前仍在评估华为加速器的推理性能。
关于R2模型,目前尚不清楚它是否就是此次发布的V3.1版本,或是另一个即将推出的模型。
值得注意的是,DeepSeek V3.1并非从零开始的全新模型,而是基于早期V3版本的检查点进一步训练而成。尽管如此,这一新版本在功能上有显著改进。V3.1版本不再区分“思考型”和“非思考型”模型,而是将两种范式整合到单一模型中,并通过聊天模板实现模式切换。因此,DeepSeek的聊天机器人界面也不再提及R1版本。
统一模型以支持推理和非推理输出的概念并非DeepSeek首创。阿里巴巴今年早些时候也曾尝试过类似做法,但因发现该功能降低了模型质量而放弃。然而,在基准测试中,DeepSeek的V3.1版本似乎成功避免了这一问题。与V3版本相比,V3.1的非思考模式在各项指标上都有显著提升。
在启用思考功能后,V3.1版本的性能提升虽然相对温和,但DeepSeek指出,该模型现在需要更少的思考Token就能给出答案,这将有助于降低模型服务的成本。
在上下文处理能力方面,DeepSeek将V3.1版本的上下文窗口(即短期记忆)从65,536个Token扩展到131,072个,尽管这一数字仍然落后于阿里巴巴的Qwen3等其他中国模型,后者能处理高达百万级的Token上下文。
DeepSeek还声称在工具和函数调用能力方面取得了重大进展,这对于需要实时检索外部数据和调用工具的AI工作负载至关重要。例如,在针对自主浏览器使用任务的Browsecomp基准测试中,DeepSeek V3.1版本获得了30分的高分,而R1版本的5月版本仅得8.9分。
除了通过聊天机器人服务和API端点提供服务外,DeepSeek还在Hugging Face和ModeScope平台上提供了基础模型和指令调优模型的权重下载,方便开发者进一步定制和优化。
关于DeepSeek V3.1版本的更多信息,以下是几个常见问题及解答:
Q:DeepSeek V3.1有哪些新特点?
A:V3.1版本最大的特点是使用UE8M0数据类型进行优化,专为即将发布的国产芯片设计。同时,它整合了“思考型”和“非思考型”模型功能,在单一模型中通过聊天模板实现模式切换,并将上下文窗口的Token数量大幅提升。
Q:为什么DeepSeek要切换到UE8M0数据类型?
A:DeepSeek切换到UE8M0主要是为了与即将推出的新一代国产芯片保持兼容。尽管公司之前已在使用FP8的E4M3类型,但UE8M0是专为新一代国产芯片设计的,预示着可能有更强大的国产加速器即将面世。
Q:DeepSeek V3.1版本的性能如何?
A:在基准测试中,V3.1版本的非思考模式相比V3版本在各项指标上都有显著提升。在工具调用方面,V3.1版本在Browsecomp浏览器任务测试中得分高达30分,远超R1版本的8.9分。同时,该模型现在需要更少的思考Token就能给出答案,有助于降低服务成本。