评论
分享

七牛云受邀参加2021 GOPS全球运维大会,分享AIOps探索和实践

这个是认证

每日知讯

2021-11-24 21:05

25192 0 0

11月18日-19日,由高效运维社区(GreatOPS)和开放运维联盟(OOPSA)、RPA时代社区联合主办的2021 GOPS全球运维大会在上海正式召开。GOPS主要面向运维行业的中高端技术人员,目的在于帮助运维人员系统学习了解相关知识体系,让创新技术推动社会进步。

七牛云受邀出席了本次大会,七牛云运维架构师敖文武就AIOps在七牛云的探索和实践等话题,同与会嘉宾进行了分享。敖文武从AI和运维OPS关系,AIOps七牛内部探索和实践,我们的思考与总结等方面进行分享。敖文武指出,运维在故障处理流程中的各个环节,如问题发现、检测、分析、根因定位和响应处理等,其中问题的根因定位分析所占时间长达60%,严重依赖运维专家的知识和经验。依托七牛云「PISA」产品,梳理数据建模分析,构建出关键业务调用链路。并通过动态阈值计算,预测未来服务分数等算法能力。实现快速根因定位,有效缩短MTTR40%,并逐步在运维内部落地。

从运维角度,为什么需要AIOps?


整个故障处理过程中,问题定位所需要的时间占比达到60%。实践中,MTTK(Mean Timeto Know)环节严重依赖运维专家的知识和经验,且难以口口相传。所以,我们需要有一种方法将专家知识和经验沉淀下来,帮助我们更加高效的定位和决策。

七牛云内部的探索和实践

内部在AIOPS上针对如何快速定位问题上做了一些探索和落地实践:系统可观测性依托“PISA”智能服务分析,构建系统可观测性。SRE专家经验知识沉淀,加速问题定位。业务健康评分多维度KPI指标占比评分计算,主动综合预测业务健康和趋势预测。告警智能降噪针对不同告警规则做指标数据分类,降低告警风暴,提升告警准确度。动态阈值静态指标弊端很多,无法适应流量峰值周期,集群规模一直在变化。静态的阈值要么是设置过低、要么是过高。所以我们采用时序检测算法、训练指标历史数据,有效识别周期性异常波动。

可观测性核心要素:1、Metrics指标性统计。度量应用某一类信息的正确率、成功率、流量等,这是我们常见的应用单个统计聚合。2、Tracing分布式追踪。一次请求的范围,服务于服务,服务于组件之间的依赖追踪。3、Logging日志记录。程序在执行的过程中间发生了一些日志,会包含报错信息、堆栈信息等详细日志内容。

基于七牛云Pandora平台,构建智能运维分析工具「PISA」。「PISA」针对企业在数字信息化过程中,面临业务系统与IT系统割裂的难题,IT人员分析问题难,解决问题耗时长,各类监控软件数量繁多但无法协同等问题现状,有效连接企业的业务系统和IT系统,通过提升整体的可观测性、实时洞察隐患、快速根因定位、提前预知故障等手段,帮助企业提高系统稳定和减少损失。将传统的被动式运维变成主动式运营,让数据产生更高价值。除此之外,平台机器学习工具包,上面集成了大量的算法、能够管理模型和快速验证。工程师直接去做算法多少有一些门槛,但可以参与模型的训练。通过不同条件组合,参数调整,特征优化以追求更好的效果表达。

关于我们自己的思考和总结

第一,数据维度越全面越好。

第二,所有数据标准化越规范统一越好。

第三,场景(知识)越深入越好。

本身对运维场景理解不是特别深,不理解场景当成产品功能去做的话,恐怕只能做出一个完整的产品功能来,大概率无法直接落地,因为线上环境复杂多元,这些情况非常依赖运维专家本事的经验。AIOPS能够落地,一定是在SRE或DevOps最佳实践中升华而来。

简单来说,如何借助AI能力与运维场景进行深度结合,并“落地”实践,是我们对AIOps的思考和理解。


# 规范
本文为凯迪网自媒体“凯迪号”作者上传发布,代表其个人观点与立场,凯迪网仅提供信息发布与储存服务。文章内容之真实性、准确性由用户自行辨别,凯迪网有权利对涉嫌违反相关法律、法规内容进行相应处置。
举报
投喂支持
点赞
发表评论
请先 注册 / 登录后参与评论
推荐阅读