谷歌DeepMind与香港大学联合研发的“草稿纸分块”(Scratchpad Patching,简称SP)技术,为字节级语言模型的发展开辟了新路径。这项以预印本形式发布于arXiv平台(编号2605.09630)的研究,通过创新机制解决了传统模型在处理长字节序列时的效率与质量矛盾,为AI文本处理提供了更通用的解决方案。
传统语言模型依赖分词器将文本切割为词语片段,但面对罕见词、外语或代码时,分词错误常导致模型理解偏差。字节级模型虽能绕过分词器,直接处理计算机存储的最小单位——字节,却面临序列长度激增带来的计算成本问题。例如,一段文本的字节序列长度可能是词语序列的三到四倍,直接处理会大幅增加模型负担。
为平衡效率与质量,研究人员提出“分块”策略,将连续字节打包为“补丁”供模型处理。然而,这种策略引入了新问题——“补丁滞后”:模型预测当前字节时,只能依赖上一个补丁的旧信息,而非当前补丁内已处理的部分。这种信息延迟在补丁较大时尤为明显,导致预测质量下降。例如,固定16字节分块的模型在自然语言任务中的准确率比不分块的字节级模型低约6个百分点。
SP技术的核心在于“边读边记草稿”。与传统模型仅在补丁结束时生成总结不同,SP允许在补丁内部特定位置提前汇总已读字节,形成临时草稿供模型参考。这些草稿仅用于当前计算,不会被永久存储,因此不增加内存占用。实验表明,SP使模型在预测时能依赖更近的“汇报”,显著缓解了信息滞后问题。
研究团队设计了一套精巧的训练方案,确保草稿机制的高效实现。训练时,草稿状态被展开并拼接至主干网络输入,通过并行计算避免时间成本增加;推理时,草稿即用即弃,仅保留正式补丁状态,内存开销与普通模型持平。SP采用基于预测熵的触发策略,仅在模型不确定度高时生成草稿,避免不必要的计算。例如,在英文文本中,草稿触发点多集中在单词边界或罕见词首字母,符合人类阅读习惯。
在统一测试框架下,SP技术展现了显著优势。实验覆盖代码生成、自然语言理解等任务,参评模型包括纯字节级模型、传统分词器模型及四种分块策略家族(固定大小、SpaceByte、基于熵、H-Net)。结果显示,所有分块策略在加入SP后,质量均显著提升,而内存占用保持不变。例如,固定16字节分块模型在加入SP后,自然语言任务准确率从48.0提升至54.2,接近不分块的字节级模型(54.1),同时内存占用仍小16倍。
代码生成任务中,SP的增益更为突出。固定8字节分块模型在MBPP测试集上的通过率从24.1提升至32.1,Humaneval测试集从13.0提升至15.9;固定16字节分块模型的通过率分别从18.2提升至27.5,从10.5提升至14.8。自然语言理解任务中,SpaceByte加SP的平均准确率从54.5提升至56.2,熵分块加SP从53.2提升至55.3,部分简单分块策略的性能甚至超越复杂策略,表明SP可能重新定义分块策略的重要性。
针对“SP是否仅通过增加计算量提升性能”的质疑,研究团队进行了等算力对比实验。结果显示,在固定大小、SpaceByte、熵分块三种策略中,SP版本在相同计算量下的验证集比特数(BPB)均优于非SP版本,证明其提升源于计算资源的针对性分配,而非单纯增加算力。唯一例外是H-Net策略,其学习型补丁边界与SP的熵触发机制存在位置偏移耦合,导致部分计算重复。
多语言测试中,SP技术缩小了模型对非英语语言的性能差距。在FLORES-200数据集的200种语言评估中,纯字节级模型因不依赖语言特定规则表现最稳,传统分词器模型因训练语料偏英语表现较差,而加入SP的补丁模型整体排名提升,与纯字节级模型的差距显著缩小。
SP的另一实用优势是推理灵活性。传统补丁模型的补丁大小在训练时固定,部署后无法调整;SP模型则允许在推理时动态调节补丁大小或草稿频率,无需重新训练。例如,调高熵触发阈值可减少草稿生成,提升推理速度;调低阈值则增加草稿密度,提高质量。这种调节能力为模型在不同场景下的部署提供了弹性空间。
尽管SP技术已取得突破,研究团队仍指出其局限:训练阶段草稿状态会增加计算量,需探索更高效的草稿设计;当前草稿更新规则较简单,未来可借鉴循环神经网络优化;SP在多层级补丁架构中的系统性研究尚属空白;与H-Net的兼容性问题也需进一步解决。这些挑战为后续研究指明了方向。





