滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

作业帮基础架构专家亮相第十届A2M峰会分享用技术杠杆破解AI算力效率困局

时间：2026-06-23 01:11:51 来源：TechWeb编辑：快讯 IP：北京 发表评论无障碍通道

近日，国内极具影响力的AI工程化实践峰会——第十届A2M峰会（北京站）如期举办，作业帮基础架构研发工程师张浩然受邀发表主题演讲《AI时代资源效率困境和破局之道》，以多地域集群大规模GPU调度实战为核心内容，系统拆解了AI基础设施领域“规模扩张与效率停滞”的行业困境，并首次公开作业帮自研的三大核心破局方案。

规模越大，浪费越严重：AI算力效率的行业性悖论

演讲伊始，张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境：过去5年AI训练算力每六个月翻一番，远超摩尔定律；但与此同时，行业智算中心GPU平均利用率却长期低于30%。

“花了十倍的钱，买了十倍的卡，实际有效算力可能只涨了2到3倍。”他直言，这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件，浪费反而越严重，成本压力越来越大。结合全球数据中心电力消耗年均增速已达15%、是其他所有行业总增速四倍以上的宏观背景，张浩然指出：单靠“堆硬件”的路已经走不通，AI算力的下一个战场，是效率。

与教科书中理想化的单一超大集群不同，作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域GPU型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。

作业帮分享三大核心破局实践经验

面对上述挑战，作业帮基础架构团队历经多年迭代，形成了一套层层递进、相互配合的系统性解法，实现了“用更少的资源，跑更多的AI服务/任务”的核心目标。

第一，跨地域算力网络创新——作业帮自研了一套统一流量调度系统，核心理念是让调用方对变动零感知：从部署方面看，作业帮团队自容器化之初就创建了多云容灾，超前地搭建了多集群部署、镜像分发等能力；而部署之后的核心难点是通信问题，作业帮基础架构团队创新性尝试，让流量调度器根据各地域健康度和配比自动分发，对于无专线的地区，集群间会通过公网进行通信，并在协议层级进行加密；对于有专线的地区，则能进行专线和公网的切换，以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动，服务SLA（Service Level Agreement）依然稳定维持在99.99%以上。

第二，单集群内的碎片化治理——对于效率提升的最大贡献点，则是单集群内的碎片化治理。作业帮基础架构团队自研了GPU调度器、RS-Webhook和碎片整理任务三件套，从调度、回收、整理三个层面协同作战：调度策略上，整卡的模型不同服务优先堆叠，同服务尽量分散；显存模型则按照显存维度极致堆叠。回收策略方面，废弃K8s默认Pod回收逻辑，改为向计算“哪台机器缩容后能空出最多卡”的方向推进。而在碎片化治理阶段，经资源逐层检查与预调度，确认不影响在线服务后，对回收的资源进行标记，根据高峰和非高峰的策略，把散落的卡Pod迁走，尽可能空出资源。

第三，在离线混合部署——前两套方案打好基础后，作业帮将在离线混部策略升级为“只要有空闲整机，则立刻填充离线训练任务”的高效模式，彻底告别固定时间窗口的潮汐离线。当在线Pod预调度失败时，系统自动驱逐任务量最少的离线任务，确保在线SLA不受影响。

经过上述系统性优化，作业帮跨地域算力网络彻底打破地域限制，业务扩容再也不受单云/单地域束缚：GPU平均利用率长期维持在90%以上，可用算力增加约20%，这些成果直接转化为业务价值和成本节约。

“AI时代，规模只是入场券，效率才是生死线。”这句张浩然在演讲结尾送给全场的话，也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育AI的科技公司，作业帮在基础架构侧的技术积累已远超行业平均水准，不仅在复杂异构、多云分散的真实生产环境中跑通了GPU利用率90%+的方案，更将这套工程化经验开放分享，为整个AI基础设施行业的降本提效探路。

据悉，A2M峰会是国内最早聚焦AI工程化实践的技术盛会之一，本届峰会北京站于2026年6月13日至14日在中关村国家自主创新示范区会议中心举办，吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。

更多>同类资讯

支付宝阿宝对话革新低频服务，微信AI渗透深耕高频场景，谁主沉浮？

06-23

湖南黄金两月内三高管退休换新，业绩创新高背后外购金业务隐忧浮现

06-23

港证监内地事务主管高小真将退休，曾推动两地金融合作，继任人选面临挑战

06-22

稀土永磁四强争霸：盛和、北方、厦门、中国稀土谁将登顶新王座？

06-22

研报掘金丨东吴证券：首予豪悦护理"买入"评级，盈利能力有望逐步修复

06-22

波罗的海干散货运价指数下跌

06-22

科思科技：控股股东涉诉一审判决拟上诉结果尚不确定

06-22

谷歌股价跌幅扩大至5%

06-22

SpaceX跌幅扩大至超10%

06-22

立讯精密：拟使用不超400亿元闲置自有资金购买低风险银行产品

06-22

太合音乐集团递表港交所

06-22

美国航天概念股大幅下挫

06-22

保利发展：商业不动产REITs获注册后续待募集发行

06-22

美元兑日元短线下挫逾40点

06-22

华泰证券首评迅策(3317.HK)：AI数据服务迈入TokenOS时代，给予"买入"目标价240.08港元

06-22

点击查看更多 +

全站最新

胖东来郑州成立新餐饮公司同步下调多款自营产品售价惠及消费者

盒马酒铺“店中店”新玩法：低门槛酒水消费，是增长点还是流量噱头？

马云领衔阿里高管下田插秧挽裤光脚体验农耕田间欢声笑语不断

马云领衔阿里高层下田插秧，蒋凡周靖人等现身共绘田园团建新图景

马云携阿里高管下田插秧，以农耕之道诠释AI战略坚定深耕决心

链博会“新面孔”Walker C1登场：具身智能人形机器人“入职”千行百业

热门内容

本栏最新

未来外贸企业新格局：获客、信任、经营能力成制胜关键要素

NASA新一代探测车ERNEST测试进展：主动悬挂搭配AI系统速度远超前辈

油田绿电制氮车邂逅氢能：开启多功能综合能源应用新前景

绿电制氮车：从试点到推广，为国内油田注入绿色高效新动能

云桌面革新企业智慧办公：集中管理、远程运维，提升IT管理效能与安全

AI多智能体协同开发：轻量APP从灵感到Demo的4步高效实践

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

作业帮基础架构专家亮相第十届A2M峰会 分享用技术杠杆破解AI算力效率困局

作业帮基础架构专家亮相第十届A2M峰会分享用技术杠杆破解AI算力效率困局