基于SLO健康度体系探索与实践演讲人:徐新龙运维数据价值提升群内每日免费分享5份+最新资料300T网盘资源+40万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长……全面赋能!添加微信,备注“入群”立刻免费领取200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音……扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料个人简介蚂蚁集团基础设施团队SRE技术专家毕业于复旦大学信号处理方向从事关于SLO的健康度体系建设,以及异常检测、故障定位、预案推荐等场景下的AIOps实践曾就职于携程技术保障中心,负责AIOps的实践探索和落地在人工智能技术结合运维场景的实践方面有丰富的经验和深入研究徐新龙SLO介绍为什么需要SLOSLO健康度体系如何利用SLO构建系统的健康度AIOps赋能SLO和智能化的结合实践案例基于SLO的实际运维场景介绍CONTENT目录SLO介绍似曾相识的经历…调度器队列有增长,怀疑请求容量有激增Day017:00增大重试时间间隔Day018:00重启调度器后仍无好转Day020:00调度器性能分析…Day023:00定位到调度器的资源变更Day111:00集群状态:服役中集群规模:11K节点,450Kpods集群用途:核心生产业务调度器资源优化Day-517:00排查认为是低优先级的容器Day-415:00调度器“带病”工作Day-4~Day0用户开始反馈Day015:00集群状态:服役中集群规模:11K节点,450Kpods集群用途:核心生产业务交付成功率下跌告警Day020:00交付成功率下跌告警Day-414:00经典思路--故障驱动事前变更管控事中应急流程事后监控覆盖#SOP#限流#容量伸缩#沉淀专家经验#混沌攻击#注册#审批#过程式潜在问题:EDA•Event-drivenArchitecture•K8S主导的Operator体系正在削弱过程式变更的影响力潜在问题:非云->云•多样性•掌控力潜在问题:协同DevvsSREorDev+SREor平台工程师SLO驱动•改被动为主动常用SLI含义时效性(Latency)任何因果系统不可避免的具有延时,用来衡量和反映系统提供服务的速度快慢可用率(Availability)在时间片维度上反映系统提供服务的能力成功率(SuccessRatio)基于服务次数反映系统提供服务的...