滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

GAIR 2025：胡侠团队“有损计算”突破，为大模型推理效率提升带来新可能

时间：2025-12-12 17:09:52 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在大语言模型领域，提升上下文处理能力一直是科研人员关注的焦点。当前，不同厂商发布的大语言模型在超长上下文处理方面取得了显著进展，部分模型已能支持数百万Token的输入，例如MiniMax-M1、Qwen2.5-1M系列模型，均具备百万Token级别的处理能力。然而，这场关于上下文长度的竞争仍在持续，因为更长的上下文处理能力能够为模型在金融、法律、医疗等领域的长语境任务中提供更广阔的应用空间，创造更大的商业与技术价值。

针对这一目标，一支科研团队提出了“通过有损计算提高大语言模型推理效率”的研究方案。该方案的核心思路是利用大语言模型对低精度计算等“有损操作”产生的噪声具有较强鲁棒性的特点，主动引入可控的信息损失，以换取推理效率的提升。这种“有损计算”主要通过降低计算或存储精度来实现，重点围绕模型参数量化、KV Cache压缩、模型剪枝与知识蒸馏等路径展开。

在处理医疗领域长篇文献信息提取等任务时，大语言模型面临“预训练长度限制”和“推理内存需求激增”的双重挑战。为应对这些挑战，该团队的研究实现了两项关键技术突破。在算法层面，通过粗化远距离标记的位置信息，将模型的语境长度扩展至原有水平的8倍；在系统层面，将过往标记的中间状态（KV Cache）量化为2比特数字，实现了8倍内存效率提升和3.5倍时钟时间加速，且不影响模型性能。

在具体实施中，粗化位置信息的策略并非静态，而是根据上下文需求动态调整。而将KV Cache压缩至2比特是一项激进的优化，团队通过大量实验验证了其在低精度表示下仍能保持模型准确率。KV Cache是大模型训练和推理中的重要中间存储状态，直接关联GPU内存。例如，A100 80GB GPU中，超过90%的内存用于存储KV Cache。将其从16比特压缩至2比特，相当于将存储量提升近10倍，显著降低了硬件成本。

目前，该方案主要在llama模型上进行了实验验证，相关研究成果已发表于2024年。团队开发的AutoKeras等开源项目已被广泛采用，此次的有损计算技术也已被hugging face的transformer和llama.cpp等主流开源软件包采纳。与混合专家模型（MoE）等技术相比，该方案在哲学上追求效率与准确率的平衡，但在技术路径上完全不同。MoE通过稀疏性解决问题，而粗化位置信息方法则要求模型读完所有内容，但无需记忆精确位置。

在应用场景方面，该方案目前主要针对语言大模型，在多模态大模型或其他智能体上的效果尚未充分验证。实验表明，在问答类任务中，压缩至2比特时模型准确率不会下降，但在生成程序等对精度要求极高的任务中可能影响准确性。团队在医疗健康领域开发了一个基于罕见病的问诊系统，用户可通过输入症状查询可能的罕见病，效果显著。由于大模型能够整合大量统计信息，该方案在法律和医疗等场景中仍具有应用潜力。

关于硬件协同设计，该方案目前专注于GPU层面的优化，尚未涉及特定硬件的变革。然而，团队认为，未来可能需要新的模型架构在预训练阶段直接融入稀疏性设计，而非仅在推理阶段进行补救。该方案具有“即插即用”的特点，实现原理简单易懂，因此用户数量众多。目前，团队正探索2比特压缩在实际中的应用边界，以及理论研究与系统落地的结合方向。

更多>同类资讯

Runway推GWM-1世界模型：拓展至多领域，同步升级视频生成与算力支撑

12-12

黑芝麻智能携手元戎启行，以芯片算法融合赋能高阶辅助驾驶量产

12-12

云从科技携手高校发布首个百万级“空对空”反无人机追踪基准及强力模型

12-12

美图CEO吴欣鸿：打造AI创新工作室内部“赛马”助力产品创新升级

12-12

密度法则引领大模型新方向：智能将走向分布式，端侧潜力无限

12-12

宇树科技王兴兴：具身智能“双80%”达成就迎拐点或一两年内实现

12-12

杭州以勒：以科技赋能咖啡机打造智能售货新体验的领航者

其主营产品涵盖人工智能组合商用售饮机、现磨咖啡机、智能售货机、服务型AI机器人等商用设备，同时提供配套设备操控系统、后台管理系统软件开发与相关售后服务。总结来说，智能售货咖啡机代表了现代科技与日常生活的结合…

12-12

纽约州率先立法规范AI广告：明确生成内容披露与已故者形象使用规则

12-12

迪士尼豪掷10亿牵手OpenAI：经典IP集体“入局”Sora，开启AI娱乐新实验

12-12

1X机器人转向工业赛道：Neo获EQT十年万台订单，先攻仓库再图家庭市场

12-12

英伟达推出AR1自动驾驶模型：开放推理赋能，复杂路况应对更从容

12-12

1X携手EQT开启战略合作，人形机器人Neo从家庭走向工业新赛道

12-12

钉钉8.1.10焕新登场：AI深度融入沟通、协作与硬件，重塑职场新体验

12-12

OPPO调整AI架构推"超级小布" 姜昱辰领衔打造智能交互新体验

12-12

迪士尼与OpenAI达成重磅合作：10亿美元投资 200余角色入驻Sora平台

12-12

点击查看更多 +

全站最新

新能源售后满意度逆袭传统燃油车汽车服务竞争重心加速迁移

智能座舱生态困局：硬件碎片化、适配成本高，如何破局重构体验？

纵横G700凭全场景实力出圈，续航、舒适、通信全满足，成穿越新宠

GDPS 2025探秘：从插花到救援，具身智能机器人应用加速落地

机器人ETF易方达盘中吸金力强获1700万份净申购产业前景受关注

麦克斯韦国际北京设金融创新基地创始人马鑫将捐百所图书馆助公益

热门内容

本栏最新

山东首富跨界转型：借北汽制造“拼车” 另辟蹊径寻车市突破

3000万辆里程碑！中国长安以“长安速度”书写汽车产业新辉煌

协作型智能体时代来临：多智能体协作重塑产业新生态

岚图追光L上市，27.99万起售，能否在中大型轿车市场掀起波澜？

英飞凌OptiMOS 7功率MOSFET发布，为多领域应用带来性能新突破

领益智造递交H股上市申请，业务多点开花启动“A+H”双平台新篇

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.