随着人工智能技术进入高速发展期,社会对智能算力的需求结构正发生深刻转变。在训练阶段算力需求增速趋缓的同时,面向千行百业的推理算力需求呈现爆发式增长。然而,国产算力生态长期面临"芯片孤岛"困境——不同厂商生产的异构芯片因缺乏统一调度标准,难以形成协同效应,导致算力资源闲置与行业需求激增的矛盾日益突出。
上海人工智能实验室近日宣布突破这一技术壁垒,其自主研发的DeepLink混合推理框架成功实现多元异构芯片的深度协同。这项创新技术通过构建智能调度系统,使不同架构的国产芯片首次在推理场景中实现"分工协作",标志着我国在自主算力体系建设领域取得重大进展。实验室系统平台中心负责人王辉比喻称:"这相当于为AI推理组建了一支全明星球队,让擅长进攻的芯片负责突破,让精于组织的芯片掌控节奏。"
技术团队针对AI推理的特殊需求,创新性地提出预填充-解码分离架构(PD分离)。在千卡规模的算力集群测试中,该方案使首字响应时间缩短34.5%,整体推理吞吐量提升32%。这意味着用户与AI交互时,系统反馈速度提升近三分之一,持续对话能力也获得显著增强。实验室披露的数据显示,通过精准的任务分配,不同芯片的算力特长得到充分发挥,集群整体效能实现质的飞跃。
支撑这项突破的是三大核心技术组件:策略求解器DLSolver如同"人才测评系统",可精准评估每块芯片的性能特征;智能路由系统DLRouter扮演"战术指挥官"角色,实时优化任务分配路径;异构通信库DLSlime则构建起芯片间的"高速通道",确保数据传输效率。这三项技术共同构成智能调度中枢,使异构芯片集群的协作流畅度达到新高度。
在产业应用层面,该方案已完成与昇腾、沐曦等8个主流国产芯片品牌的适配,平均推理性能提升超20%。这意味着在保持现有算力投入的情况下,用户可获得相当于降低20%成本的等效算力提升。目前,多个省级算力中心已启动技术迁移工作,预计将激活数万PFLOPS的闲置算力资源,为智能制造、智慧医疗等领域提供强有力支撑。
这项突破与实验室去年发布的混合训练框架形成完整技术闭环,构建起覆盖训练-推理全流程的国产算力赋能体系。通过降低对特定硬件的依赖度,该方案为构建安全可控的算力基础设施提供了新范式。技术专家指出,随着更多国产芯片纳入适配范围,我国AI产业将形成"多芯协同"的新生态,为"人工智能+"战略的深度实施奠定坚实基础。











