在人工智能Agent模型迅猛发展的当下,如何高效处理超长文本成为行业核心挑战。这些模型不仅需要精准检索长上下文中的关键信息,还要在多轮推理中保持高速响应,计算成本与效率的平衡成为技术突破的关键方向。针对这一痛点,小米MiMo团队近日推出HySparse混合稀疏注意力架构,通过创新设计实现了性能与效率的双重优化。
该架构采用"极少量全注意力层+多层稀疏注意力层"的组合模式,在800亿参数规模的MoE模型实验中,仅保留5层全注意力层即可维持模型性能,同时将KV缓存存储需求压缩至原来的1/11。这种设计突破了传统密集注意力机制对计算资源的依赖,在RULER长文测试中,即使大幅减少全注意力层数量,模型仍能稳定捕捉长距离依赖关系,展现出混合结构的独特优势。
技术实现层面,HySparse引入hybrid block模块化设计,每个模块由1层全注意力层与N层稀疏注意力层构成。其核心创新在于稀疏层不再独立计算token重要性,而是直接复用全注意力层生成的KV缓存和关键token索引。这种设计充分利用了全注意力层在计算过程中自然产生的中间结果,避免了重复计算带来的资源消耗,在保持性能的同时显著降低了内存占用。
相较于前代Hybrid SWA结构,新架构通过引入全局token信息补充机制,进一步优化了注意力分布。实验数据显示,在70亿参数密集模型和800亿参数混合专家模型上,HySparse均带来可观测的性能提升。特别是在处理超长序列时,其稀疏层通过共享全注意力层的关键信息,既保证了重要上下文的完整保留,又通过稀疏计算降低了整体开销。
该技术的突破为Agent应用落地提供了重要支撑。在需要实时处理海量文本的场景中,HySparse架构既能满足模型对长上下文的理解需求,又能通过降低计算复杂度提升响应速度。研究团队透露,后续将探索在更大规模模型上验证架构极限,并尝试进一步减少全注意力层数量,推动超长文本处理效率迈向新台阶。








