在大语言模型领域,提升上下文处理能力一直是科研人员关注的焦点。当前,不同厂商发布的大语言模型在超长上下文处理方面取得了显著进展,部分模型已能支持数百万Token的输入,例如MiniMax-M1、Qwen2.5-1M系列模型,均具备百万Token级别的处理能力。然而,这场关于上下文长度的竞争仍在持续,因为更长的上下文处理能力能够为模型在金融、法律、医疗等领域的长语境任务中提供更广阔的应用空间,创造更大的商业与技术价值。
针对这一目标,一支科研团队提出了“通过有损计算提高大语言模型推理效率”的研究方案。该方案的核心思路是利用大语言模型对低精度计算等“有损操作”产生的噪声具有较强鲁棒性的特点,主动引入可控的信息损失,以换取推理效率的提升。这种“有损计算”主要通过降低计算或存储精度来实现,重点围绕模型参数量化、KV Cache压缩、模型剪枝与知识蒸馏等路径展开。
在处理医疗领域长篇文献信息提取等任务时,大语言模型面临“预训练长度限制”和“推理内存需求激增”的双重挑战。为应对这些挑战,该团队的研究实现了两项关键技术突破。在算法层面,通过粗化远距离标记的位置信息,将模型的语境长度扩展至原有水平的8倍;在系统层面,将过往标记的中间状态(KV Cache)量化为2比特数字,实现了8倍内存效率提升和3.5倍时钟时间加速,且不影响模型性能。
在具体实施中,粗化位置信息的策略并非静态,而是根据上下文需求动态调整。而将KV Cache压缩至2比特是一项激进的优化,团队通过大量实验验证了其在低精度表示下仍能保持模型准确率。KV Cache是大模型训练和推理中的重要中间存储状态,直接关联GPU内存。例如,A100 80GB GPU中,超过90%的内存用于存储KV Cache。将其从16比特压缩至2比特,相当于将存储量提升近10倍,显著降低了硬件成本。
目前,该方案主要在llama模型上进行了实验验证,相关研究成果已发表于2024年。团队开发的AutoKeras等开源项目已被广泛采用,此次的有损计算技术也已被hugging face的transformer和llama.cpp等主流开源软件包采纳。与混合专家模型(MoE)等技术相比,该方案在哲学上追求效率与准确率的平衡,但在技术路径上完全不同。MoE通过稀疏性解决问题,而粗化位置信息方法则要求模型读完所有内容,但无需记忆精确位置。
在应用场景方面,该方案目前主要针对语言大模型,在多模态大模型或其他智能体上的效果尚未充分验证。实验表明,在问答类任务中,压缩至2比特时模型准确率不会下降,但在生成程序等对精度要求极高的任务中可能影响准确性。团队在医疗健康领域开发了一个基于罕见病的问诊系统,用户可通过输入症状查询可能的罕见病,效果显著。由于大模型能够整合大量统计信息,该方案在法律和医疗等场景中仍具有应用潜力。
关于硬件协同设计,该方案目前专注于GPU层面的优化,尚未涉及特定硬件的变革。然而,团队认为,未来可能需要新的模型架构在预训练阶段直接融入稀疏性设计,而非仅在推理阶段进行补救。该方案具有“即插即用”的特点,实现原理简单易懂,因此用户数量众多。目前,团队正探索2比特压缩在实际中的应用边界,以及理论研究与系统落地的结合方向。











