ITBear旗下自媒体矩阵:

南洋理工等高校研究新突破:AI语言模型多字预测提速,推理更高效

   时间:2026-04-16 21:57:18 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

语言模型生成文字时逐字输出的方式,正在被一项名为MARS的新技术打破。这项由三所高校联合开发的技术,通过让模型在特定场景下同时预测多个字符,显著提升了推理效率。研究团队在预印本平台发布的论文显示,该方法在保持生成质量的同时,将模型输出速度提升至原来的1.5倍以上。

传统语言模型采用自回归架构,每个字符的生成都需要完整的前向计算过程。这种设计导致模型在处理确定性内容时,如"综上所述"等固定表述,仍需消耗同等计算资源。研究人员形象地比喻,这相当于厨师处理简单葱段与复杂法餐时,都要重新布置整套厨具。MARS技术通过引入掩码预测机制,使模型能够识别确定性场景,实现多字符并行预测。

在技术实现层面,研究团队设计了独特的双轨训练框架。模型同时处理原始文本和经过掩码处理的版本,前者用于维持标准语言模型能力,后者训练多字符预测能力。通过特殊设计的注意力机制,确保预测过程中始终遵循因果关系,即每个字符只能参考其左侧已生成内容。实验数据显示,当掩码块大小设置为4个字符时,模型在数学推理任务上的得分提升4.5分,代码生成能力提升3分。

该技术的核心突破在于解决了多字符预测中的四大技术难题。除必要的掩码占位外,研究团队通过保持单向注意力机制、固定预测位置偏移量、维持严格从左到右生成顺序,成功消除了传统方法中存在的三大偏差。这种设计使模型在扩大预测块大小时,仍能保持稳定的训练信号强度。当块大小从4增加到16时,加入完整版损失训练的模型得分波动控制在0.7分以内,而传统方法得分下降达6.2分。

在实际应用中,MARS采用滑动窗口机制实现动态加速。模型根据置信度阈值τ决定每次接受的字符数量,当预测字符概率超过阈值时,系统自动将其纳入输出序列。这种设计使服务提供商可根据负载情况动态调整参数:高负载时降低阈值提升吞吐量,需要高质量输出时提高阈值确保准确性。测试表明,在批量处理场景下,优化后的缓存策略可使模型吞吐量提升1.7倍。

与需要维护双模型的推测解码方案相比,MARS展现出显著优势。该技术无需额外模型或参数,仅通过继续训练即可实现功能升级。在5亿参数和70亿参数两个规模的模型测试中,MARS训练后的模型在标准输出模式下,指令遵循得分分别提升1.7分和1.5分,证明掩码训练本身具有数据增强效果。研究团队特别指出,当阈值设置为0.95时,70亿参数模型在保持0.2分精度优势的情况下,平均每次输出1.68个字符。

这项研究同时揭示了现有技术的局限性。双轨训练使计算量增加约一倍,小模型训练时间从15GPU小时延长至33GPU小时。在输出长度敏感的数学和代码任务中,传统未训练模型反而因天然知晓输出长度而表现略优。研究团队正在探索动态块大小调整和异步缓存策略,以进一步提升技术实用性。完整技术细节和实验数据已通过论文编号arXiv:2604.07023公开,相关代码在GitHub平台开放下载。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version