meta公司近日宣布,其研发团队成功开发出一款名为KernelEvolve的革命性AI系统,该系统能够自动为不同架构的AI芯片生成优化计算代码,在性能提升和开发效率方面取得突破性进展。这项技术突破标志着AI在底层系统软件开发领域迈入新阶段,为异构计算环境下的性能优化提供了全新解决方案。
传统代码开发模式面临多重挑战:不同AI芯片架构差异显著,NVIDIA GPU采用线程块模型,AMD GPU依赖ROCm扩展,meta自研的MTIA芯片则使用专用C++内核语言;硬件迭代速度加快,新架构发布周期缩短至12-18个月;推荐系统需要处理超过200种数据预处理操作,每个操作都可能成为性能瓶颈。KernelEvolve系统通过自动化生成优化代码,成功解决了这些难题。
该系统的核心创新在于构建了完整的"探索-学习-优化"循环。决策树架构作为基础框架,从问题根节点出发自动生成多个编程策略分支;选择策略组件智能评估分支潜力,优先探索高价值路径;通用操作器突破传统固定处理模式,实现灵活适配;适应度函数通过实时性能评估指导优化方向;终止规则确保搜索效率。这种架构使系统能够像经验丰富的厨师般,根据不同"厨房设备"特性创造最佳"食谱"。
知识管理系统是另一个关键突破。研究团队构建了层次化知识库,按硬件平台、架构特性、优化技巧等维度组织信息。深度搜索子智能体实现精准知识检索,上下文记忆子智能体自动生成结构化分析报告。针对MTIA专有硬件缺乏公开资料的问题,团队系统性注入硬件特性、编程接口等专业知识,使AI系统掌握专有硬件优化能力。
在性能验证阶段,系统展现出惊人实力。测试覆盖160个基础操作,在NVIDIA H100、AMD MI350和MTIA v3三平台生成480个操作-硬件组合代码,全部实现正确运行。KernelBench基准测试中,系统在250个测试项取得满分。实际应用场景中,Llama-3.1-8B模型推理速度提升4.6倍,卷积变换器操作加速最高达6.54倍,数据预处理操作MBDT实现9.25倍性能突破。
生产环境部署验证了系统的实用价值。卷积变换器优化中,系统生成的融合内核将五个计算步骤压缩为两个,内存访问效率显著提升;WuKong推荐模型的FM操作优化通过算子融合减少内存读写,特征数量较少时加速达4倍;InterFormer模型的PFFN模块优化实现2.5倍性能提升。在MTIA芯片上,系统生成的MapId变换内核完全在设备端执行,消除主机-设备同步开销,大批量工作负载下加速4.07倍。
该系统的部署架构充分考虑工业级需求。代码生成与评估解耦设计,生成过程在CPU服务器完成,评估任务通过函数即服务(FaaS)分发至专用测试环境,实现资源高效利用。多层验证机制确保代码可靠性,包括数值精度验证、边界条件测试和性能回归防护。持续集成流水线自动处理编译器更新、驱动升级等依赖变化,故障恢复机制支持中断续跑和分布式并行搜索。
这项技术突破带来多重产业影响。硬件生态方面,自动化代码生成打破"先有鸡还是先有蛋"的困境,加速新硬件商业化进程;开发模式上,算法研究人员可专注模型创新,底层优化交由AI系统完成;能源效率层面,计算效率提升直接减少数据中心碳排放。据测算,系统在meta推荐系统中的应用已显著降低单位计算能耗。
研究团队透露,下一代系统将拓展三大方向:构建支持未来硬件架构的统一优化层,实现模型级全局优化而非单操作优化,开发垂直集成能力从高层DSL到底层裸机代码。大规模并行搜索技术也在研发中,计划通过分布式评估数千候选方案实现"无限宽度"搜索。这些进展可能催生全新的编译器技术范式,重新定义AI基础设施的开发模式。
对于普通用户而言,这项技术已悄然改变数字体验。社交媒体的内容推荐更加精准及时,AI对话助手的响应速度显著提升,视频平台的图像处理更加流畅。这些改进背后,正是KernelEvolve系统在优化数据预处理、矩阵运算等底层操作。随着技术持续进化,未来用户将享受到更智能、更高效的数字服务,而无需感知底层技术的复杂性。






