ITBear旗下自媒体矩阵:

小红书RedKnot引擎开源:破解长文本难题,推理速度与效率双提升

   时间:2026-06-30 13:40:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在生成式人工智能领域,处理超长文本时的效率与成本问题长期困扰着技术团队。近日,小红书技术团队宣布开源其自主研发的RedKnot推理引擎,通过架构创新为长上下文任务提供了新的解决方案。该引擎通过优化底层计算逻辑,显著降低了内存占用并提升了推理速度,尤其适用于需要处理海量文本的场景。

传统大模型在推理过程中,通常采用按词元(token)维度存储的KV Cache机制。这种模式在处理短文本时表现良好,但当输入长度超过一定阈值后,内存消耗会随文本长度线性增长,导致推理速度下降且并发能力受限。RedKnot突破了这一局限,其核心创新在于将KV Cache沿注意力头维度拆解,并引入“头分类稀疏”“稀疏FFN”和“SegPagedAttention”三项关键技术。这些机制通过统一算法逻辑与存储粒度,实现了计算资源的高效利用。

实际测试数据验证了RedKnot的性能优势。在配备8块H800显卡的高性能计算环境中,该引擎将首字生成时间(TTFT)缩短至原来的1/1.6至1/3.54,单卡并发能力提升至4.7倍至7.8倍。在预填充阶段,其计算资源消耗(FLOPs)减少67%至79.5%。以DeepSeek-V4-Flash模型在128K超长上下文任务中的表现为例,RedKnot使其首字生成速度提升5.16倍,KV数据传输效率优化6.3倍,同时推理精度保持在稠密模型95%以上的水平。

行业分析师指出,RedKnot的开源为AI推理引擎的工程优化提供了重要范本。在当前算力资源紧张的背景下,通过底层架构创新降低长文本处理门槛的思路,为构建更轻量、更高效的AI系统开辟了新路径。该团队已将完整代码公开,旨在加速长文本AI应用的技术普及与产业落地。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version