滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

智能运维场景解析：基于AIOps的智能根因分析实践

时间：2019-12-06 09:52:35 来源：互联网编辑：星辉 IP：北京 发表评论无障碍通道

企业上云、区块链、物联网、5G，随着一个个数字化场景的应用和业务模式的多样化发展，支撑这一切的企业IT系统的规模和复杂性正在大幅提高，IT 运维团队面临的压力和挑战与日俱增，任何一次服务中断事件都有可能对公司业务造成极大影响。因此，当故障发生时候，必须快速、准确、有效的定位到故障根源，通过快速修复保障数字业务稳定可靠运行，是CIO所领导的IT部门职责的重中之重。

然而，依赖运维经验和手工操作的传统故障排查方式效率低下，无法应对如今大规模、分布式、异构IT系统的运维挑战，必须利用基于大数据和机器学习等智能运维技术的根因分析(Root Cause Analysis，RCA)，才能在最短时间内定位故障根因，全面提升MTTR(平均故障修复时间)这两个数字化运维的关键指标。

在海量离散数据中追踪故障根因的难点

应用系统架构复杂，技术体系多样，数据孤岛在企业中大量存在。目前，IT部门普遍采用多种离散监控系统来实现不同的技术栈监控，如基础设施与服务监控采用Zabbix或监控宝、网络监控使用Solarwinds软件、应用性能管理采用透视宝等APM产品，还有一些业务和性能采用日志分析手段进行监控。

当问题出现时，技术人员往往需要从用户使用的终端应用和设备开始，对各个IT环节的运行状态和性能进行端到端分析，从全栈全维度的角度深入对故障进行定位。然而，传统的统计型和Trace型根因分析方法各有缺点，导致无法快速准确定位根源故障，需要大量的人工排障时间。

基于AIOps的根因分析方法

根因分析方法广泛应用于IT和医学等领域。著名IT研究机构Gartner为根因分析给出的定义，是一种旨在将当前条件与过去采集到的结构化/非结构化数据模式进行匹配的复杂分析方法，根因分析的目标是尝试定位一个系统错误的问题根源。

因此，根因分析需要将异常检测和事件相关性从另一个维度结合起来进行分析，该分析将一般性的意外情况转化为具有特定解决方案的特定问题。因此，根因分析需要与异常检测和事件关联分析相同类型的数据，即用于检测异常的黑盒数据和将整个系统中异常关联的白盒数据。

事件的质量和跨系统/数据的异常关联的质量都将对根因分析结果产生巨大影响。所以，不仅要了解关联机制，还要了解确保相关性持续存在且正确的操作条件或配置。根因分析需要利用以下技术发现和自动维护系统拓扑，避免手动指定拓扑造成的误差：

·从现有的IT运维数据库(如CMDB)中提取关联关系

·基于agent发现系统的相关性，通过观察系统之间的连接来构建拓扑

·通过日志文件从共享数据的实体(例如主机名或IP地址)之间推断拓扑关系

异常检测旨在表明某些不正常现象，而根因分析则试图阐明“是什么问题”、“为什么发生问题”、“问题的最佳解决方案是什么”，这一系列目标需要准确性和精确性，总的来说，这是一个极其复杂的数据科学问题。

根因分析的优点：

·实施效果良好的根因分析会大幅缩短系统中断后的平均故障恢复时间(MTTR);

·根因分析可以减少对经验的依赖，并可以通过定向响应进行更多的机械补救;

·如果精度和准确度足以满足用例的要求，根因分析将为智能自动化开启大门;

根因分析的难点：

·根因分析解决方案通常依靠关联和抽象技术来获得准确性、精度和影响范围，当这些假设不可靠时，根因分析结果也会受到影响;

·创建问题指纹库的工作量和复杂性很大，这使得根因分析对于大多数手动方法来说都是遥不可及的。

基于多源数据的云智慧智能故障根因分析

现在的根因诊断算法(格兰杰因果关系等)多是从数据关联出发，给出数据的相关性概率，但不能有效给出系统根因。云智慧DOEM数字化运维事件管理产品提供了多个算法相互结合验证的根因诊断系统，智能满足特定数据的验证，利用Open Tracing、APM(应用性监控)等技术对业务和系统的调用关系进行有效构建，同时利用CMDB等部署关系建立统一的调用拓扑图和物理拓扑图，构建基于图算法和数据关联相结合的算法。

当数据之间存在逻辑关系时，可以根据数据逻辑给出根源;当数据存在结构性的时候，会根据图算法模型对根因进行分析，然后进一步将不同的算法模型对场景和不同的元数据进行适配，对异常进行有效的根因定位。在众多可能引起故障的因素中，追溯到导致故障发生的症结所在，并找出根本性的解决方案。利用机器学习或者深度学习的方法，找出不同因素的之间的强相关关系，并利用这些关系推断出哪些因素是根本原因。

当故障发生时，DOEM的根因分析功能基于智能算法给出当前问题事件的故障根因推荐，并将问题事件的相关故障信息汇集到一个页面，根因分析结果可以帮助运维工程师快速确定故障的根因，并迅速对故障进行修复，降低损失。

上面的示例中，明确指出引起业务量波动最可能的原因(87%概率)是某台主机的CPU使用率过高，可以进一步查看详情，如下图所示：

展示该主机的关键指标信息：此时CPU使用率达到了100%。在拓扑图中可以分析该主机的问题所引起的其它组件与应用的故障与性能不佳情况。同时，本页面集中展现该了主机的实时数据、告警事件信息，帮助分析问题。

DOEM基于问题事件的特征，自动匹配知识库中的相似问题，把问题的处置建议与经验推送给用户，实现“知识找人、知识找问题”。基于脚本封装式的知识，运维人员可进一步执行处置程序，实现问题的自动化处置。

云智慧DOEM(Digital Operation Event Management的缩写)数字化运维事件管理产品面向技术和管理，以事件为核心，实现问题事件全生命周期的全局管控。DOEM基于大数据技术和机器学习算法，对来自于各种监控系统的告警消息与数据指标进行统一的接入与处理，支持告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析。DOEM运用动态基线等算法，实现事件的告警收敛、异常检测、根因分析、智能预测，帮助企业打通数据孤岛，统一运维的标准与管理规范，减少对运维的事务性干扰，提升运维的整体管理水平。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

百度广告收入下半年或承压，花旗下调其核心营业利润预期

花旗分析师在报告中表示，在百度快速提升AI搜索能力和广告支出情绪持续低迷的情况下，广告收入对业绩的拖累可能超出预期。百度2025年一季度核心收入为255亿元，同比增长7%。今年一季度，萝卜快跑在全球提供超1…

07-21

马斯克新动向：专为儿童打造的AI应用“Baby Grok”即将面世

07-21

逐际动力获京东战略投资，加速人形机器人量产，2025下半年正式开售

07-21

华为新专利：创新技术助力扩散模型训练成本大降

07-21

科蓝软件武汉新设智算科技公司，注册资本高达千万级

07-21

虚拟偶像引领社交新风潮，AI企业数量激增再创新纪录

07-21

OpenAI豪掷5000亿布局AI新基建，2025年前将上线百万GPU加速技术革新

07-21

京东领投三家机器人企业，加速布局具身智能引领供应链革命

07-21

火山引擎“奇美拉”数字人平台封测中，字节跳动AI布局再提速

07-21

优必选携手伙伴共创新，锦程智行智能技术公司注册资本达千万

07-21

百度布局AI领域，申请注册“AI同传”商标引关注

07-21

荆门市成立低空产业投资公司，注册资本达1亿元

07-21

中国网民破11亿，2024年AI产业增速迅猛，规模超7000亿

07-21

砺算科技首发6nm自研GPU G100，性能直追英伟达RTX 4060系列

07-21

蚂蚁集团AQ应用iOS版大热，或与Apple Watch携手深化AI健康服务

07-21

点击查看更多 +

全站最新

小米汽车与特斯拉“神似”照片引热议，摄影师澄清拍摄经过

电动车贬值榜：特斯拉领跌，二手市场电车价值缩水明显

奔驰应对豪车税调整：限时全额承担新增消费税，力保销量稳定

特斯拉马斯克预告：即将上演“史诗级”新品演示，引发热烈猜想

智界R9全尺寸豪华SUV谍照抢先看，11月正式发布面临市场考验

京东战略加持，逐际动力推进人形机器人量产与生态协同

热门内容

本栏最新

百度广告收入下半年或承压，花旗下调其核心营业利润预期

华为新专利：创新技术助力扩散模型训练成本大降

科蓝软件武汉新设智算科技公司，注册资本高达千万级

虚拟偶像引领社交新风潮，AI企业数量激增再创新纪录

优必选携手伙伴共创新，锦程智行智能技术公司注册资本达千万

百度布局AI领域，申请注册“AI同传”商标引关注

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.