vivo业务高可用建设实践周甲黎|vivo互联网业务运维总监群内每日免费分享5份+最新资料300T网盘资源+40万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长……全面赋能!添加微信,备注“入群”立刻免费领取200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音……扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料一、问题与挑战二、可用性能力建设三、可用性阶段建设四、可用性结果与展望1、问题与挑战|规模不断增长➢机器的规模不断增长➢服务数量不断增长201720182019202020212022物理机总数物理机总数201720182019202020212022在线服务数量服务个数2、问题与挑战|应付需求,稳定性风险大1、业务变更中存在手工变更场景2、单次发布时间较长3、存在业务迁移的场景1、机房级故障风险2、业务快速增长对容量需求大幅增加业务稳定性能力建设变更挑战故障挑战一、问题与挑战二、可用性能力建设三、可用性阶段建设四、可用性结果与展望1、可用性能力建设|基于故障的全生命周期开展故障①✖️时间②③故障避免+最快解决故障发生故障发现故障响应故障恢复故障复盘故障发生MTTRMTTFMTBF关键点①故障预防②故障发现③故障治愈④故障复盘2、可用性建设方向|故障发生分析-服务视角服务输入输出硬件方面:主机硬件、机房、网络等服务方面:软件bug等容量方面:请求突增从单服务的稳定性来看:硬件的不稳定、软件变更引入bug、业务的请求突发都会引发服务的异常3、可用性建设方向|故障发生分析-全链路视角服务A输入上下游依赖:关键服务异常服务层:配置异常等容量层:请求突增服务B从全链路的稳定性来看:上下游依赖、容量不足和服务配置异常等都是影响稳定性的重要因素4、可用性建设方向|故障预防建设基础设施异常变更异常全链路异常高可用架构,去除单点风险,做好冗余容灾做好变更管理:有流程、有平台上下游强弱依赖,关键服务分析5、可用性建设方向|故障预防➢单元化➢实现服务在本机房内调用➢多入口➢建设了IDC和公有云的多入口➢过载保护➢接入层建设了过载保护能力,突...