滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

谷歌DeepMind与港大联合研究：字节级语言模型实现高效高质量新突破

时间：2026-05-16 18:58:32 来源：天脉网编辑：快讯 IP：北京 发表评论无障碍通道

谷歌DeepMind与香港大学联合研发的“草稿纸分块”（Scratchpad Patching，简称SP）技术，为字节级语言模型的发展开辟了新路径。这项以预印本形式发布于arXiv平台（编号2605.09630）的研究，通过创新机制解决了传统模型在处理长字节序列时的效率与质量矛盾，为AI文本处理提供了更通用的解决方案。

传统语言模型依赖分词器将文本切割为词语片段，但面对罕见词、外语或代码时，分词错误常导致模型理解偏差。字节级模型虽能绕过分词器，直接处理计算机存储的最小单位——字节，却面临序列长度激增带来的计算成本问题。例如，一段文本的字节序列长度可能是词语序列的三到四倍，直接处理会大幅增加模型负担。

为平衡效率与质量，研究人员提出“分块”策略，将连续字节打包为“补丁”供模型处理。然而，这种策略引入了新问题——“补丁滞后”：模型预测当前字节时，只能依赖上一个补丁的旧信息，而非当前补丁内已处理的部分。这种信息延迟在补丁较大时尤为明显，导致预测质量下降。例如，固定16字节分块的模型在自然语言任务中的准确率比不分块的字节级模型低约6个百分点。

SP技术的核心在于“边读边记草稿”。与传统模型仅在补丁结束时生成总结不同，SP允许在补丁内部特定位置提前汇总已读字节，形成临时草稿供模型参考。这些草稿仅用于当前计算，不会被永久存储，因此不增加内存占用。实验表明，SP使模型在预测时能依赖更近的“汇报”，显著缓解了信息滞后问题。

研究团队设计了一套精巧的训练方案，确保草稿机制的高效实现。训练时，草稿状态被展开并拼接至主干网络输入，通过并行计算避免时间成本增加；推理时，草稿即用即弃，仅保留正式补丁状态，内存开销与普通模型持平。SP采用基于预测熵的触发策略，仅在模型不确定度高时生成草稿，避免不必要的计算。例如，在英文文本中，草稿触发点多集中在单词边界或罕见词首字母，符合人类阅读习惯。

在统一测试框架下，SP技术展现了显著优势。实验覆盖代码生成、自然语言理解等任务，参评模型包括纯字节级模型、传统分词器模型及四种分块策略家族（固定大小、SpaceByte、基于熵、H-Net）。结果显示，所有分块策略在加入SP后，质量均显著提升，而内存占用保持不变。例如，固定16字节分块模型在加入SP后，自然语言任务准确率从48.0提升至54.2，接近不分块的字节级模型（54.1），同时内存占用仍小16倍。

代码生成任务中，SP的增益更为突出。固定8字节分块模型在MBPP测试集上的通过率从24.1提升至32.1，Humaneval测试集从13.0提升至15.9；固定16字节分块模型的通过率分别从18.2提升至27.5，从10.5提升至14.8。自然语言理解任务中，SpaceByte加SP的平均准确率从54.5提升至56.2，熵分块加SP从53.2提升至55.3，部分简单分块策略的性能甚至超越复杂策略，表明SP可能重新定义分块策略的重要性。

针对“SP是否仅通过增加计算量提升性能”的质疑，研究团队进行了等算力对比实验。结果显示，在固定大小、SpaceByte、熵分块三种策略中，SP版本在相同计算量下的验证集比特数（BPB）均优于非SP版本，证明其提升源于计算资源的针对性分配，而非单纯增加算力。唯一例外是H-Net策略，其学习型补丁边界与SP的熵触发机制存在位置偏移耦合，导致部分计算重复。

多语言测试中，SP技术缩小了模型对非英语语言的性能差距。在FLORES-200数据集的200种语言评估中，纯字节级模型因不依赖语言特定规则表现最稳，传统分词器模型因训练语料偏英语表现较差，而加入SP的补丁模型整体排名提升，与纯字节级模型的差距显著缩小。

SP的另一实用优势是推理灵活性。传统补丁模型的补丁大小在训练时固定，部署后无法调整；SP模型则允许在推理时动态调节补丁大小或草稿频率，无需重新训练。例如，调高熵触发阈值可减少草稿生成，提升推理速度；调低阈值则增加草稿密度，提高质量。这种调节能力为模型在不同场景下的部署提供了弹性空间。

尽管SP技术已取得突破，研究团队仍指出其局限：训练阶段草稿状态会增加计算量，需探索更高效的草稿设计；当前草稿更新规则较简单，未来可借鉴循环神经网络优化；SP在多层级补丁架构中的系统性研究尚属空白；与H-Net的兼容性问题也需进一步解决。这些挑战为后续研究指明了方向。

更多>同类资讯

SpaceX货运“龙”飞船启程：携科研重器奔赴国际空间站

05-16

SpaceX星舰V3巨型火箭发射台就位即将开启第12次关键试飞

05-16

存储芯片涨价潮下手机市场分化：苹果华为逆势降价，中低端厂商承压

05-16

绿联MagFlow Air磁吸充电宝白色版海外登场，轻薄设计高效充电新选择

05-16

小米YU7 GT实车进驻门店！车厘子红惊艳登场 5月底发布引期待

05-16

9-10月四款小屏旗舰手机蓄势待发，骁龙天玑齐聚，配置亮点抢先看

05-16

SpaceX货运“龙”飞船启程携科研重器奔赴国际空间站

05-16

百度AI新布局：设BMC“自留地”，内部创业破局“赶晚集”困境

05-16

小米YU7 GT实车进驻全国门店！车厘子红惊艳亮相 5月底发布引期待

05-16

苹果iOS 27系统大变革：AI深度渗透，液态玻璃设计再升级

05-16

9-10月四款小屏旗舰手机将至，骁龙天玑齐上阵，配置亮点抢先看

05-16

摩尔线程5月18日将办2026产品发布会，或推家庭AI新形态产品

05-16

谷歌Gemini Intelligence硬件门槛揭晓：需12GB内存及旗舰芯片仅部分新机支持

05-16

OpenAI深夜大动作：ChatGPT等三线合一，Brockman掌舵迎战强敌

05-16

点击查看更多 +

全站最新

油电双线发力！吉利4月销量成绩亮眼，新能源燃油市场齐头并进展实力

小米YU7 GT赛道红内饰曝光：红黑交织配专属刺绣，高性能轿跑SUV月底见

小米YU7 GT未上市先受热捧，媒体试驾赛车手齐点赞，到店体验别错过

小米YU7 GT实车进驻全国门店！车厘子红惊艳登场 5月下旬覆盖82城

小米YU7 GT车厘子红实车惊艳亮相！5月底发布，全国268店即将开售

第二十二届文博会预约系统上线！八大主题路线助您精准对接，开启高效文化商贸之旅

热门内容

本栏最新

油电双线发力！吉利4月销量成绩亮眼，新能源燃油市场齐头并进展实力

小米YU7 GT赛道红内饰曝光：红黑交织配专属刺绣，高性能轿跑SUV月底见

小米YU7 GT未上市先受热捧，媒体试驾赛车手齐点赞，到店体验别错过

小米YU7 GT实车进驻全国门店！车厘子红惊艳登场 5月下旬覆盖82城

小米YU7 GT车厘子红实车惊艳亮相！5月底发布，全国268店即将开售

第二十二届文博会预约系统上线！八大主题路线助您精准对接，开启高效文化商贸之旅

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.