ITBear旗下自媒体矩阵:

北大携手DeepSeek开源DSpark框架,破解大模型推理难题提升交互体验

   时间:2026-06-28 14:46:26 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

北京大学与深度求索公司近日联合发布了一项名为DSpark的大模型推理加速框架,并宣布将其开源。这项技术针对大语言模型在高并发场景下的推理效率问题提出了创新解决方案,能够在保持同等吞吐量的前提下,将单用户文本生成速度提升60%至85%。相关研究论文和训练代码已在GitHub平台公开共享,为行业提供了可复用的技术方案。

当前主流大语言模型普遍采用自回归生成机制,每个文字单元的生成都需要完整的前向运算过程,导致对话响应延迟较高。尽管推测解码技术被视为提升效率的主要路径,但现有方案存在明显缺陷:串行草稿模型随着文本长度增加候选生成耗时显著上升,并行草稿模型则面临长序列候选接受率急剧下降的问题,最终造成高并发场景下的算力资源浪费和系统吞吐量瓶颈。

DSpark框架通过双重优化机制突破技术瓶颈。在候选生成阶段,采用半自回归架构结合改良并行主干网络,可一次性输出候选基础特征,同时通过轻量化顺序模块补充文本前后依赖关系。实验表明,仅需两层Transformer结构即可超越五层传统并行模型的性能表现。在验证调度环节,创新设计的置信度调度验证机制通过硬件感知前缀调度器,根据实时算力负载和候选存活概率动态分配计算资源,优先处理高可靠性文本片段,有效减少无效计算损耗。

多场景测试验证了该框架的优越性。研究团队选取通义千问3、Gemma4等主流模型进行数学推理、代码编写和日常对话任务测试。结果显示,DSpark在单轮有效生成长度指标上全面超越Eagle3和DFlash等基线模型。以Qwen3-4B模型为例,其生成长度较Eagle3提升30.9%,较DFlash提升16.3%,既保持了并行架构的首位生成优势,又解决了长序列候选有效率衰减问题。

工程实现方面,研发团队完成了多项底层优化。训练阶段通过改进数据传输逻辑和采用序列打包策略,显著降低了算力与内存消耗;部署端设计的异步调度模式成功规避GPU流水线卡顿,通过逻辑与物理计算解耦满足动态变长验证需求,兼容主流CUDA硬件生态。这些优化使得框架能够灵活适配不同硬件环境,为实际部署提供了技术保障。

目前,DSpark框架已应用于DeepSeek-V4-Flash和DeepSeek-V4-Pro预览版服务引擎。线上实测数据显示,在不同用户响应速度标准下,系统吞吐量实现显著提升:V4-Flash引擎在保障80token/s生成速度时,吞吐量较原有基线提升51%;当要求120token/s高速输出时,吞吐量优势达661%。V4-Pro引擎在35token/s和50token/s标准下,吞吐量分别提升52%和406%。系统具备自适应调节能力,可根据在线并发量自动调整验证文本长度,在低负载时充分释放算力,高负载时平滑控制资源竞争。

尽管DSpark在复杂低适配查询场景下仍存在固定算力开销,但深度求索公司已通过GitHub平台开源全套训练代码、评估工具和模型权重,涵盖DSpark、DFlash、Eagle3三个技术方案。这一举措为行业低成本部署高性能大模型推理服务提供了完整技术路径,有助于降低人工智能应用的线上部署成本,提升终端用户的交互体验。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version