ITBear旗下自媒体矩阵:

三大互联网企业论道AI时代:可观测技术如何突破边界,迈向“半自治”运维?

   时间:2025-10-22 21:58:01 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在QCon全球软件开发大会即将于上海召开之际,InfoQ《极客有约》联合AICon特别策划了一场关于AI与可观测技术融合的直播讨论。阿里云可观测技术架构负责人张城担任主持人,与阿里云算法专家李也、字节跳动Dev-Infra观测平台算法负责人董善东、小红书可观测团队负责人王亚普共同探讨AI时代下可观测技术的新边界。

传统可观测技术主要聚焦于"看见"系统状态,而未来新一代运维范式正朝着"发现—分析—解决—复盘"的完整闭环演进。在这个过程中,可观测系统不再仅仅是数据的"眼睛",而是逐渐演变为具备"大脑"和"手"的多功能角色。专家们指出,只有建立贴近真实场景的评测标准,并在大量实际案例中验证模型表现,才能构建起对AI的信任机制。

关于AI对可观测技术带来的变革,李也认为主要体现在两个方面:一是"AI for可观测",大模型能够自动生成SQL、配置大盘和定时任务,准确率可达80%-90%;二是"可观测for AI",AI系统产生的海量trace数据和复杂的分析诊断需求,对新一代可观测系统提出了更高要求。董善东补充道,LLM为AIOps提供了通用"大脑基座",显著改变了传统实施方式,使多模态理解与融合成为可能。

在衡量AI Agent智能水平的问题上,专家们达成共识:实战能力比实验室评测分数更为重要。董善东提出将AI Agent能力分为三个层级:L1+级别的单点增强、L2级别的自主性解决问题、L3级别的学习能力。李也指出,当前一些大模型榜单存在"刷榜"现象,实验室评分往往无法真实反映模型的实战水平,评估需要合理划分任务难度。

关于大模型与传统算法的关系,王亚普认为两者是分工协作、优势互补的关系。传统算法在特定场景下具有快速、准确、稳定的优势,而大模型则具备跨领域、复杂信息的处理能力和泛化能力。李也通过"排除法"论证,指出大模型无法取代传统算法,特别是在处理原始可观测数据时存在天然劣势,需要领域微调或强化学习才能具备实用价值。

在构建AI信任机制方面,专家们提出了多种解决方案。李也认为需要通过大量实践与真实评测来建立信任,王亚普强调要采用灰度验证等手段逐步放量,建立可解释性、可审计性、可回滚性的保障机制。董善东则提出从"易接受人群"切入,让AI"润物细无声"地融入现有工作流程,逐步积累信任。

对于SRE和运维工程师的未来角色,专家们普遍认为将向"高可用架构师"和"AI训练师"转型。王亚普指出,当AI接管重复性工作后,SRE将有时间思考系统架构的合理性等更本质的问题。董善东认为,SRE将逐渐具备"AI训练师"的角色,通过结构化整理专业知识来赋能AI。李也强调,真正的专家型SRE将因为能"带AI小弟"而价值倍增。

在数据质量治理方面,专家们一致认为"垃圾进,垃圾出"的定律在AI时代被显著放大。李也指出需要明确数据字段含义、筛选有价值的信息,董善东提出要从"人容易使用数据"、"AI容易读懂数据"、"平台内各处容易联动跳转"三个维度进行治理。王亚普强调,在大模型时代,语义标注的完整性甚至比格式统一更为重要,高质量的数据是一切智能分析的基础。

关于未来3-5年可观测性的理想图景,王亚普设想可观测平台将进化为"智能生命体",能够完成智能化的日常巡检和预测性洞察。董善东认为系统将能够自动值守告警群,实现夜间无人值守。专家们普遍认为,三到五年内实现"半自治"运维是可行的,但要达到完全自治仍面临黑天鹅事件、信任、安全等诸多挑战。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version