云原生时代下大规模GPU资源利用率优化最佳实践张伟快手基础技术部容器云技术中心群内每日免费分享5份+最新资料300T网盘资源+40万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长……全面赋能!添加微信,备注“入群”立刻免费领取200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音……扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料1234背景与趋势GPU虚拟化与混部GPU潮汐混部实践持续演进与展望目录页Contents推动业务容器化大套餐预留策略社区策略定制2018~2019CPU在离线混部CPU潮汐混部实时负载&节点健康度调度服务画像机制服务内亲和反亲和多集群联邦计量计费2019~2020GPU虚拟化与GPU混部AI训练与潮汐混部NUMA亲和服务间亲和反亲和本地多磁盘策略2021~2022成本与稳定性快手编排调度发展历程资源合池多场景统一调度全局弹性能力扩量2023~后续全局资源效率发展启动扩量与精细化算力需求多样化服务量动态增长微服务改造、长尾增多实时流量潮汐实例负载及规模快速变化资源池共享推理/训练/近线多场景混合提升GPU资源效率卡类型多样GPU硬件多年持续迭代平台系统损耗故障及主机异构的调度损耗资源弹性需求单卡、多卡、多机多卡场景业务背景与趋势GPU算力强需求云原生化多业务场景与GPU应用已深刻影响各类业务(搜广推、音视频、MMU、风控等)场景快手内部GPU在线服务及离线训练任务均完成云原生化迁移背景:成本问题逐步凸显GPU卡规模十万量级主流A100、A30、A10、T4等多型号数万台GPU主机&十万量级GPU卡GPU服务数千量级在线服务(推理等)、AI训练任务及近线服务(特征提取等)多样化场景运行效率在线服务GPU峰均差值约30PP训练类算力全天需求旺盛峰均差值核心优化目标:GPU资源利用率提升图:快手内部某服务GPU使用率趋势利用率业务框架适配成本控制新卡性能增强GPU编解码器GPU显存约束流量潮汐变化稳定性GPU卡型多样机型异构容量冗余控制资源配额保障故障隔离云原生合池面临挑战云原生下的挑战成本优化是目标,稳定性保障是前提1234背景与趋势GPU虚拟化与混部...