哔哩哔哩OLAP平台引擎演进实践演讲人:李呈祥群内每日免费分享5份+最新资料300T网盘资源+40万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长……全面赋能!添加微信,备注“入群”立刻免费领取200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音……扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料01OLAP平台介绍03湖仓一体02ClickHouse04总结目录|两年前的OLAP场景状态|1.业务分散自建2.没有统一OLAP平台建设3.缺乏完善的接入工具和标准4.多种OLAP引擎并存,维护使用成本高阶段一:数据服务引擎收敛到ClickHouse|WhyClickHouse?|1.性能强大2.功能丰富3.支持各种场景4.业界大规模使用,社区活跃,稳定可靠。典型的使用场景:1.用户行为分析2.人群圈选3.Up主/稿件分析案例一:用户行为分析平台|用户行为分析平台的业务特点:1.数据量超大,超千亿条数据/天。2.大量天/周/月级别的分组UV统计/留存/漏斗/路径/用户分群分析等。3.数据业务来源较多,公共属性字段和业务私有属性字段并存。64节点ClickHouse集群5PB数据量P904s响应案例一:用户行为分析平台|ClickHouseBulkLoad:1.将写入资源消耗移出ClickHouse,为查询提供稳定的资源保证。2.Spark任务可scale-out扩展,不受clickhouse节点限制。问题一:超大规模数据写入导致的CK集群稳定性问题。案例一:用户行为分析平台|主要的性能优化手段:1.统一的UserID字典映射,从String映射为bigint2.ByUserID分shard存储,将分布式CountDistinct转化为LocalCountDistinct。3.通过数据聚合物化,将UV/漏斗/人群分组等操作转化为RoaringBitMap的交并差计算。问题二:如何达到交互式的查询性能。B站基于ClickHouse的海量用户行为分析应用实践阶段二:文本检索迁移到ClickHouse|ES部分场景的迁移|文本检索搜索排序案例二:日志平台|基于ElasticSearch日志平台的相关问题:1.写吞吐量上有着明显的瓶颈,分词耗CPU且难以解决热点问题。2.由于压缩率不高的原因,ES的存储成本较高,对内存有着较高的要求3.数据分析能力较弱,入...