今天分享的是:李赛:分钟级故障治愈:携程AIOps建设之路
报告共计:44页
《分钟级故障治愈:携程AIOps建设之路》由李赛撰写,介绍了携程AIOps技术体系建设,通过数据、能力、场景三要素构建智能运维,在多方面提升运维效率和质量。
1. 运维发展与AIOps要素:运维发展历经传统运维、脚本运维、自动化运维到智能运维阶段。AIOps包含数据、能力、场景三要素。数据是基础,涉及采集、处理、存储等多环节;能力涵盖算法和平台能力;场景以痛点和价值期望为切入点,驱动智能运维落地。
2. 智能告警系统:业务监控告警存在数据源配置复杂、规则告警易漏告误告等痛点。携程智能告警系统架构完善,采用智能异常检测算法,如基线预测、LSTM趋势分析等。其告警配置优化,支持秒级粒度告警,提升故障发现率。该系统还具备双IDC部署、告警状态机等特性,提升了告警的准确性和处理效率,使故障1分钟发现率大幅提升,准确率达80%+,召回率95%+。
3. 智能变更:变更面临监控难、阈值设置不准等问题。携程智能变更架构涵盖多个平台,流程上拦截多种变更,检测多方面指标。通过符号检验、结合历史数据等方法提高检测准确性。应用后显著降低发布配置类变更故障占比,准确率达86%,4分钟内可发现异常。
展开剩余79%4. 容量与服务治理:容量管理包含多种场景和任务,通过模型建设、全链路压测等手段实现资源合理调配。服务治理结合算法自动化巡检,识别风险项并给出建议,涵盖超时、限流等多方面治理,提高系统稳定性,降低人工管理复杂度。
5. 后续规划展望:携程AIOps持续发展,借助算法提升故障定位和恢复效率,实现全自动应用发布与故障演练,精细调度资源控制成本,为企业运维提供更智能、高效的解决方案 ,推动运维领域的技术进步和发展。
以下为报告节选内容
发布于:广东省