ITBear旗下自媒体矩阵:

富士通PHOTON架构突破AI算力瓶颈,小型模型多查询性能飙升475倍

   时间:2026-06-26 11:34:03 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能技术加速迭代的当下,如何平衡算力成本与模型效率成为行业核心挑战。富士通近日宣布推出名为PHOTON的全新计算架构,通过创新性的分层处理机制,为解决传统Transformer模型在复杂场景中的性能瓶颈提供了新思路。

作为当前AI领域的基石架构,Transformer模型在处理长文本或高并发查询时面临显著局限。其核心问题在于依赖频繁的内存访问来调用历史信息,导致GPU计算资源被大量消耗于数据搬运而非核心运算。这种设计在需要实时响应的场景中尤为突出,成为制约模型效率的关键因素。

PHOTON架构的突破性在于重构了数据处理逻辑。区别于传统按词元(Token)逐个处理的方式,该架构采用语义分层技术,将输入数据解析为具有逻辑关联的语义单元。这种处理模式不仅降低了计算复杂度,更通过减少数据依赖关系实现了并行计算能力的指数级提升。在多查询任务处理中,系统通过动态决策机制,在"多数表决"与"最优选择"两种策略间自动切换,将传统需要多次推理的流程压缩为单次操作。

性能测试数据印证了架构设计的有效性。在600M至1.2B参数规模的小型模型测试中,PHOTON架构展现出显著优势:1.2B参数模型的多查询处理速度达到传统Transformer架构的475倍,同时内存占用降低超过80%。这种效率提升源于架构对KV Cache存储机制的优化,通过动态压缩历史信息存储量,使系统在相同硬件条件下支持更多次数的模型迭代。

值得注意的是,这种效率提升伴随一定精度折损,但在多数实际应用场景中,计算效率的收益远大于微小的精度损失。对于需要处理海量I/O操作的智能体系统而言,PHOTON架构通过减少数据搬运次数,有效缓解了内存带宽瓶颈,为构建更高效的AI基础设施提供了可能。

富士通研发团队透露,目前正与多个行业伙伴合作推进架构落地,重点优化其在边缘计算、实时推理等场景的应用。通过底层算法创新,该架构有望为智能客服、自动驾驶等对延迟敏感的领域提供更轻量化的解决方案,推动AI技术向资源友好型方向发展。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version