AI写作新突破：专家选择路由让扩散语言模型训练推理双提速

时间：2026-04-16 21:40:21 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能语言模型领域，一场关于资源分配策略的革新正在悄然展开。由多所知名高校联合完成的一项研究，为扩散语言模型（DLM）找到了更高效的计算资源分配方式，这项成果以预印本形式发布在学术平台，编号为arXiv:2604.01622。

传统大型语言模型普遍采用"混合专家模型"架构，通过数百亿参数的庞大知识库支撑复杂任务。为避免每次运算消耗过量算力，工程师们设计了"任务找专家"的派单机制——每个文字单元自主选择处理专家。这种令牌选择（Token-Choice）路由方式在逐字生成文本的模型中运行良好，但当应用于并行处理整句话的扩散语言模型时，却暴露出严重缺陷。

研究团队发现，扩散语言模型的工作原理与快递仓库管理颇为相似。传统模型如同出租车调度系统，每个包裹（文字单元）自行寻找运输车辆（专家），容易造成部分车辆超载而其他车辆闲置。而扩散模型需要同时处理整句话的生成，更像是对整栋楼的快递进行统筹分配。基于这个洞察，研究人员提出了"专家选择"（Expert-Choice）路由机制，让每位专家主动选取固定数量的文字单元进行处理。

实验数据显示，采用新路由机制的模型在训练效率上实现质的飞跃。相同架构下，专家选择路由模型仅需10.6小时就将训练损失降至3.75，而传统路由模型需要近21小时才能达到同等水平。硬件监测发现，新机制使8块GPU的内存占用标准差从3.6GB降至零，彻底消除了计算资源闲置现象，每块GPU的运算吞吐量提升1.5至2.1倍。

更令人惊喜的是，新路由机制支持动态资源分配。研究人员测试了七种不同阶段的计算资源调度方案，发现将主要算力集中在生成过程的最后阶段效果最佳。这种"线性反转调度"策略使模型困惑度降低至36.5，优于静态分配方案的37.1。在拥有80亿参数的大型模型验证中，动态调度模型在验证困惑度、综合知识测试和科学推理测试中均持续领先静态基线。

深入分析显示，不同生成阶段的学习效率存在数量级差异。当遮掩率低于25%时，模型收敛率达到62.2×10⁻³，而遮掩率高于75%时仅9.8×10⁻³。这意味着在文本基本成型的最后阶段，每次运算带来的性能提升是初始阶段的六倍以上。研究人员形象地比喻："这就像教师把更多辅导时间分配给进步空间大的学生。"

这项突破对现有模型具有重要实用价值。研究团队仅替换已训练模型的路由组件，就使代码生成任务的训练速度提升1.3倍，推理时间缩短26%。在医学问答任务中，动态调度模型准确率达到54.9%，较原始架构提高2.3个百分点。这种"微创手术"式的改进，避免了重新训练庞大模型的高昂成本。

尽管新机制存在极少量文字单元未被选中的情况（静态调度约2.7%，动态调度约8%），但模型中设置的共享专家会进行兜底处理。实际运行中，文字单元在所有层级都被遗漏的概率低于十亿分之一。研究人员承认，当前采用的线性反转等调度方案仍是人工设定，未来可探索由模型自主学习最优分配策略的可能性。

该研究重新定义了扩散语言模型的资源分配范式，证明计算资源不应是固定架构参数，而应成为可动态优化的策略变量。这项成果不仅为AI写作、编程助手等应用带来性能提升，更为模型架构设计开辟了新的研究方向。完整技术细节可通过学术编号2604.01622查阅。

大赛启动后，主办方将于近期开展各类宣讲和比赛准备工作为赛事的开展做好充分准备。民航飞行技术与飞行安全重点实验室主任潘卫军表示，学校将以本次会议为契机，搭建四川省高校的合作交流平台、搭建“校-企-产-教”融合平…

立足AI技术深度融入交通运输全链条需求，华为推进技术创新与跨领域协同，树立“点—线—面—体”发展理念，从枢纽节点到路网通道，从客流服务到物流运营，华为携手行业伙伴，持续将领先的ICT技术与交通行业场景深度融…

【新智元导读】最新研究提出合成数据的全新分类框架，突破「生成模型=合成数据」的传统认知，涵盖反演、仿真与数据增强等方法，并按应用层次划分为数据中心AI、模型中心AI、可信AI和具身AI。在这一框架下，最基…

CCF前理事长、中国工程院院士郑纬民表示，AI产业竞争核心已从“比拼算力集群规模”转向“比拼每瓦Token生产效率”，行业发展范式正从MaaS（模型即服务）向TaaS（Token即服务）跃迁。完善的算力基础设…

2026年AI行业发展已进入数据驱动的关键阶段，实时公共网络数据从竞争优势转变为企业必备能力。实时数据访问与检索、可扩展且稳定的基础架构、治理合规体系，是AI网络基础架构的三大核心支柱，其中实时数据能力被视…

低时延是具身智能交互的核心前提，工业智能设备需快速响应指令，避免因时延过高导致任务执行偏差，尤其是精密制造、实时巡检等场景，时延需控制在20ms以内；高可靠要求通信链路不中断、丢包率低，应对工业场景复杂环境…

总台央视记者王雷：今年一季度，中国日均词元调用量突破140万亿，而这个数据在2024年只有1000亿，两年增长了就超千倍。在大模型公司“月之暗面”，记者见到了这里的企业业务负责人黄震昕，但他却几乎没有时…

这一成果是双方自2017年开启战略合作以来，历经近十年深耕，从SD-WAN联合研发到SASE方案持续打磨，再到总部园区网络安全重磅落地的又一成功实践，不仅为企业总部与多分支安全建设打造了可复制的实践范本，也标…

目前，易鑫已率先在汽车金融行业运用Agentic大模型和Harness，取得提质增效与安全合规并行的实效，这些能力也将在全链路AI SaaS平台中赋能于上下游合作伙伴，提高其获客、风控与运营效率，并增强用户…

4月15日在成都开幕的第13届中国网络视听大会上，《中国网络视听发展研究报告（2026）》发布。报告显示，截至2025年12月，我国网络视听用户规模达10.99亿人，同比净增776万人。报告显示，网络视…

根据目前外界盛传的消息，iOS 27 将是一次优化为主的系统迭代。近期，彭博社记者 Mark Gurman 在一篇报道中，详细介绍了 iOS27 中的 AI 新变化。这意味着苹果将正式将 Siri 从…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.