滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

NVIDIA推出KVTC技术：破解大型语言模型长对话内存难题，提速又降本

时间：2026-03-22 12:07:24 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

NVIDIA研究人员近日宣布开发出一种名为KVTC（KV快取转换编码）的创新技术，该技术可显著降低大型语言模型（LLM）处理长对话时的内存消耗，同时无需对模型架构进行任何修改。实验数据显示，这项技术最高可将内存占用缩减至原来的二十分之一，并将首次响应速度提升达八倍。

传统大型语言模型在持续对话过程中会生成大量KV缓存数据，这些数据相当于模型的"短期记忆"，用于存储对话中的关键信息以避免重复计算。然而随着对话轮次增加，缓存数据量可能膨胀至数GB规模，导致GPU内存资源紧张，甚至迫使系统将部分数据转移至CPU或硬盘存储，引发性能下降和延迟增加。

NVIDIA团队提出的解决方案借鉴了JPEG图像压缩的经典思路，通过主成分分析、自适应量化和熵编码三个步骤实现高效压缩。技术负责人指出，现有压缩方法往往在压缩率超过五倍时就会出现明显精度损失，而KVTC技术即使在二十倍压缩率下仍能保持99%以上的模型准确率，在15亿至700亿参数规模的多个主流模型测试中均验证了这一优势。

在硬件性能测试环节，配备H100 GPU的系统处理8000个Token的输入时，启用KVTC技术后首次响应时间从3秒缩短至380毫秒。这种非侵入式设计允许企业直接部署现有模型，无需重新训练或调整核心代码，压缩和解压过程采用分层分块处理机制，确保实时交互不受影响。

技术团队特别说明，KVTC的优化效果在长对话场景中尤为显著，对于编程助手、多轮决策系统等需要持续交互的应用场景具有重要价值。相比之下，短对话场景由于缓存数据量较小，压缩带来的收益相对有限。目前研发团队正推进该技术与Dynamo框架的集成工作，目标实现与vLLM等开源推理引擎的无缝兼容。

行业分析认为，随着语言模型处理能力的不断提升，对话长度持续突破现有限制，这类标准化压缩技术可能成为基础设施的重要组成部分。其发展路径或将类似视频压缩技术的普及过程，通过降低硬件门槛推动AI技术在更多领域的规模化应用。

更多>同类资讯

北汽新能源：4月交付18411辆，同比增长69.05％

05-02

万科拟32.9亿清仓养猪业务股权流动性承压下“断臂求生”保主业

05-02

锂电产业链一季报深度剖析：多氟多、诺德股份等四家公司谁更具潜力？

05-02

NASA“蜻蜓号”2028年启程，探索液态甲烷海洋的神秘土卫六

05-02

5300万光年外的星系镜像：哈勃揭秘NGC 3137的宇宙交响曲

05-02

银河系边界终揭秘：4万光年外恒星“停产”，国际数据协作立大功

05-02

3年前18岁印度天才少年自研最小卫星，如今他已在航天领域大展身手

05-02

05-02

05-02

05-02

05-02

05-02

05-02

05-02

以官员：以军将能否移除伊朗浓缩铀视为战事“成败关键”

05-02

点击查看更多 +

全站最新

小米汽车再发力！第二品牌SKYNOMAD携三款增程SUV来袭，能否助力达成55万交付目标？

五一首日车企“晒单”！鸿蒙智行、蔚来等四月交付量数据大揭秘

小米“YU9”增程SUV谍照流出！可升降车顶成亮点或启用“寻天”新品牌

小米汽车4月交付量破3万环比增长50% YU7 GT月底亮相售价45万起

五一出行新变化：油价高企油车愁，电车崛起成新宠

DeepSeek多模态模型突破参照鸿沟；小红书AI战略升级；宇树科技双臂机器人2.69万起售

热门内容

本栏最新

美股异动丨苹果大涨超5%，创去年8月以来最大涨幅

美股异动丨礼来涨超5%，连续第二日上涨，创3月16日以来新高

油价跌幅扩大，美油期货跌超3%

比亚迪4月销量32.1万辆海外销量创历史新高

造车新势力最新战报！零跑交付超7万，极氪增长132%创新高

美股异动｜雅诗兰黛盘前涨超13%，公司第三财季财报好于预期

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.