首尔国立大学计算机科学与工程学院的研究团队近日提出了一项名为“CompactAttention”的新技术,旨在提升大型语言模型处理长文本的效率。该研究以预印本形式发布于arXiv平台,编号为arXiv:2605.16839,为AI领域处理超长文本提供了新的解决方案。
随着AI技术的广泛应用,处理长文本的需求日益增长。例如,分析合同、理解代码库或回应研究报告等场景,均需要模型能够高效处理大量信息。然而,传统方法在处理长文本时面临计算资源消耗巨大的挑战,即便使用超级计算机也难以应对。为此,研究人员提出了“分块预填充”技术,将长文本分割成小块进行分批处理,但这一方法在“回顾历史内容”时效率低下,成为制约整体性能的瓶颈。
CompactAttention技术针对这一问题进行了优化。其核心思路是将“选择重要历史内容”与“执行计算”两个步骤分离。首先,复用现有的轻量级稀疏注意力方法生成一份粗略的历史内容重要性清单;然后,通过“块联合”操作对清单进行精简,确保最终执行时仅关注最关键的部分。这一设计避免了传统稀疏注意力方法在分块处理时的低效问题,显著提升了计算速度。
在具体实现上,CompactAttention引入了“Q块联合”和“组内联合”两步操作。前者将当前文本块中所有查询小块认为重要的历史内容取并集,确保不遗漏任何关键信息;后者则对分组查询注意力中的每组查询头进行进一步筛选,减少冗余。通过这两步操作,CompactAttention在保持稀疏度的同时,降低了计算复杂度。
为了高效执行计算,CompactAttention还优化了内存布局。传统方法采用“序列优先”的存储方式,导致不同查询组在访问历史内容时效率低下。而CompactAttention采用“KV头优先”的布局,使每个查询组能够直接访问所需的历史内容,无需复制数据。这种“零复制”执行方式进一步提升了计算效率,减少了内存开销。
实验数据显示,CompactAttention在处理128K长度文本时,注意力计算速度较传统方法提升了2.72倍,端到端加速达到1.96倍。在准确率方面,CompactAttention与密集注意力基线模型的差距控制在2个百分点以内,在部分任务上甚至表现更优。例如,在LongBench V2基准测试中,CompactAttention的总体准确率与密集注意力完全持平,并在“长文本”子任务上略有超出。
CompactAttention的优势在处理更长文本时更为明显。随着文本长度的增加,其加速效果显著提升,而在块大小较大时,加速比略有下降,但仍保持较高水平。该技术对分组查询注意力模型进行了进一步优化,通过子组联合操作提升了有效稀疏度,进一步增强了性能。
对于普通用户而言,CompactAttention的优化意味着AI助手在处理长文本任务时将更加高效。例如,分析报告、记住对话历史或通读代码库等场景,均将受益于更快的响应速度和更低的计算成本。同时,该技术还为服务提供商降低了算力需求,推动了AI应用的普及。
该研究不仅为长文本处理提供了新的技术路径,还揭示了AI工程中“选择”与“执行”解耦的重要性。未来,随着更快块选择方法和更高效分页注意力核的出现,CompactAttention框架有望进一步优化,为AI领域的发展注入新的动力。感兴趣的研究人员可在arXiv平台搜索论文编号2605.16839,获取完整原文和代码仓库地址。











