滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

斯坦福与亚马逊强强联合：AI调音师助力芯片性能“飙升”新高度

时间：2026-04-27 22:40:50 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在斯坦福大学计算机科学系与亚马逊云服务（AWS）的联合研究中，一项名为AccelOpt的新技术引发了广泛关注。这项技术旨在解决AI芯片性能优化中的关键难题——如何让内核程序充分发挥硬件潜力。研究团队将这一成果发表于第九届MLSys机器学习与系统国际会议，并通过论文编号arXiv:2511.15915v2公开了完整内容。

AI加速器作为支撑大型语言模型运行的核心硬件，其性能发挥高度依赖底层内核程序的优化质量。以英伟达H100芯片为例，工程师花费两年时间才将注意力机制内核的效率提升至理论峰值的85%。而亚马逊自研的Trainium芯片由于采用新型神经元内核接口（NKI），缺乏成熟优化方案，多数内核程序仅能发挥硬件能力的40%-50%。这种现状促使研究团队探索利用AI技术实现自动化优化的可能性。

AccelOpt系统的设计灵感源自钢琴调音过程，其核心由三个智能体组成协同工作的流水线：规划师通过分析性能剖析数据确定优化方向，执行师将优化方案转化为具体代码修改，总结师则将成功经验抽象为可复用的优化规则存入记忆库。这种架构使系统能够像人类工程师一样逐步积累优化经验，形成持续进化的能力。

为避免优化过程陷入局部最优解，研究团队引入了束搜索机制。该机制在每轮迭代中同时维护多个候选内核版本，通过并行探索不同优化路径确保找到全局最优方案。实验数据显示，这种策略相比传统重复采样方法可提升12%-14%的优化效率，在Trainium芯片上将内核平均性能从49%提升至61%。

研究团队专门构建的NKIBench基准测试套件包含14个真实大模型工作负载，涵盖矩阵运算、注意力机制等关键算子。该测试集通过计算实际运行时间与硬件理论峰值的比值，为优化效果提供了客观衡量标准。在对比实验中，AccelOpt使用开源模型组合达到的优化效果与商业顶尖模型Claude Sonnet 4相当，但API调用成本仅为后者的1/26。

系统发现的典型优化技巧包括窥孔优化、循环变换和循环不变量外提等。在BatchMatmul+Softmax融合算子的优化案例中，AccelOpt通过重构循环结构消除数据溢出，最终将向量引擎利用率从46%提升至84%。对于Transpose+Matmul算子，系统自动识别出重复的矩阵转置操作，通过将其外提至循环外部减少了93.75%的冗余计算。

尽管AccelOpt在多数测试中表现优异，但研究团队也观察到两类优化瓶颈：对于已达到硬件峰值80%以上的内核，剩余优化空间有限；对于数据规模小于片上缓存容量的算子，硬件规格限制成为主要瓶颈。在BatchMatmul(B=16, K=64)案例中，由于张量引擎原生支持维度与问题规模不匹配，系统优化未能带来显著性能提升。

与人类专家的对比实验显示，AccelOpt在Mamba序列模型内核优化中达到54.6%的峰值吞吐量，超过NKI官方教程提供的最佳人工优化版本（52.7%）。这种超越源于系统的规模优势——其并行探索能力使单位时间内可尝试的优化方向数量远超人类工程师。

成本控制研究揭示了关键优化策略：执行师模型的选择对系统性能影响显著，而规划师模型的影响相对较小；扩大优化记忆库容量（ExpN）比增加每轮更新量（TopK）更具性价比。在Qwen3-Coder-30B模型实验中，将ExpN从8增加至16仅花费12.33美元，即带来4.6%的性能提升。

该技术的通用性已得到初步验证。在英伟达H100 GPU平台上，AccelOpt使用gpt-oss-120b模型实现了1.27倍的平均加速，对GQA解码内核的加速倍数更高达3.19倍。研究团队认为，随着大型语言模型接触更多硬件编程案例，其在陌生平台上的优化能力有望进一步提升。

这项研究为AI芯片优化领域开辟了新路径。通过将经验积累机制与并行探索策略相结合，AccelOpt展示了自动化优化工具在特定领域超越人类专家的可能性。其开源的代码与测试套件已为后续研究奠定基础，开发者可通过GitHub项目zhang677/AccelOpt获取完整实现。

更多>同类资讯

一加16蓄势待发：首批搭载骁龙8E6Pro 性能与设计双突破引期待

04-27

南京大学与字节跳动联合研发PersonaVLM，让AI助手化身懂你的"长期伴侣"

04-27

东方甄选主播离职潮：从“人设为王”到“品牌至上”的艰难转身

04-27

阿里巴巴Qwen3.5-Omni：全感官AI新突破，多模态交互实力几何？

04-27

追觅CEO俞浩连发微博斥小红书：价值观有毒算法助恶引热议

“这并不是我们近期有啥小红书舆情了，而是我观察一段时间之后的结论。”此外，俞浩补充说：“至于有人爱看小红书，那总有人爱看一些平台，就跟八卦谣言也总有人爱看一样。业绩方面，4月13日，俞浩发文表示，追觅在今…

04-27

Meta裁员8000人背后：AI重塑职场，白领岗位“变天”人才标准生变

不是缺钱，是AI在替代人。扎克伯格正投入数千亿美元布局AI，这也是今年美国大型企业尤其是科技行业的普遍趋势。2026年已经有7.3万人遭到裁员，其中绝大多数位于美国。横向对比，这一指标在2025年全年为12…

04-27

Agent时代团队协作新范式：谁在重塑原生协作空间？

Agent Native 需要的是，文件格式从 .docx 换成 Markdown、CSV、HTML 这些 Agent直接读写的纯文本，Agent 之间有共享的上下文而不是各自锁在对话窗口里，新能力写一段…

04-27

B站首届AI造物联赛启幕无门槛赛季制助力AI产品孵化与共创

2026年4月27日，哔哩哔哩（以下简称“B站”）对外宣布开启《硅碳合战·S1——首届bilibili AI造物联赛》，并开放报名通道。参赛者需在B站持续发布创作视频，公开展示AI产品从构想到迭代的全过程，并…

04-27

对话极氪高层：车展热度背后，如何以品牌沉淀与技术标签穿越周期？

04-27

AI浪潮下真假难辨？小红书首推AI治理主张守护社区真实底色

04-27

OpenAI跨界造手机：联发科高通助力，AI新势力挑战苹果生态护城河

04-27

OpenAI跨界入局手机市场，联发科高通助力，苹果生态护城河受挑战？

郭明錤同时发布了一张AI agent手机界面概念设计图，用以展示这一新形态手机与现有产品在交互逻辑上的根本差异——用户不再是打开一堆应用程序，而是通过手机直接执行任务、满足需求。由于手机硬件供应链已高度成熟…

04-27

谷歌“Agent Skill”工具箱开源：云服务与AI深度融合，开发者迎来高效开发新时代

事实上，早在谷歌发布这款官方 Agent Skill 库之前，谷歌云 AI 总监、Gemini 工程负责人 Addy Osmani在领英上宣布开源了一款 Agent Skills 库：为 AI 编码智能…

04-27

OpenAI跨界造手机：牵手联发科高通，2028年量产能否重塑行业格局？

郭明錤进一步解释了OpenAI做手机逻辑：一是唯有完全掌控操作系统与硬件，才能提供全方位的AI智能体服务；二是获取实时状态，只有手机能拥有用户一切的“当下状态”，这是实时AI智能体推理服务最重要的输入信息；…

04-27

OpenAI入局手机赛道：以AI Agent重构交互，2028年或颠覆移动生态

4月27日，天风国际证券分析师郭明錤在其个人社媒上发布了最新产业报告，披露人工智能巨头OpenAI正计划自研智能手机，计划以AIAgent为核心重新定义移动终端交互逻辑，目前已在硬件层面启动实质性布局。 …

04-27

点击查看更多 +

全站最新

东风奕派双车齐发：奕派M8携华为技术亮相，纳米01 Cross以8.38万开启纯电新体验

图解丨南下资金加仓中芯国际、中国移动，减持阿里和腾讯

韩国、中国台湾、日本三地股市收盘齐创历史新高

史诗级暴涨中，知名大空头紧急出手！

沃什入主美联储板上钉钉？鲍威尔将迎终极大考！

台股涨超3%，首次突破4万点，再创历史新高

热门内容

本栏最新

追觅CEO俞浩连发微博斥小红书：价值观有毒算法助恶引热议

Meta裁员8000人背后：AI重塑职场，白领岗位“变天”人才标准生变

Agent时代团队协作新范式：谁在重塑原生协作空间？

B站首届AI造物联赛启幕无门槛赛季制助力AI产品孵化与共创

追觅CEO前日炮轰小红书“烂平台” 小红书次日回应以AI治理主张

新一代小米SU7深度试驾：以卓越性能与精致设计，重塑运动轿车新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.