网易严选全链路数据治理的实践与总结演讲人:祝佳俊群内每日免费分享5份+最新资料300T网盘资源+40万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长……全面赋能!添加微信,备注“入群”立刻免费领取200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音……扫码先加好友,以备不时之需行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料目录CONTENTS面临的问题总结&未来规划治理平台的建设&实践142数据开发治理301面临的困难面临的问题计算资源存储资源数据集成数据处理数据服务数据研发数据源ETL数据仓库数据应用AIServing特征训练数据流向清洗验证标准化ODSDWDM基础设施与服务面临的问题数据稳定性差任务数逐渐增多,集群计算资源不足导致任务经常失败无法正常产出数据,当大流量时无法保证基线数据完成率。数据链路长数据从集成到被使用链路长,依赖服务和组件多,数据问题定位很困难数据成本压力大数据日积月累,存储成本日益增加,无法准确定位无用数据,数据不敢轻易删除。数据使用效率低表数量随着业务的发展越来越多,需求的频繁变更,用数时常常面临着不知道数据在哪,开发随意无规范02全链路数据治理平台全链路数据治理平台MetaDataCollectorLineageCollectorMetricCollector表生命周期模型任务健康模型任务优先级模型任务资源模型数据产出模型任务调度模型统一元数据服务全链路血缘服务全链路监控服务治理应用治理模型治理服务表治理•生命周期管理•冷/热数据管理•小文件合并任务治理•低效任务优化•数据倾斜•资源配置系统治理•引擎优化•调度优化•…统一元数据服务数据源元信息包括了严选业务域中使用到的所有数据源,如日志、mysql、ddb、kafka、hive、hbase等,例如mysql数据源就记录了相关的ip、端口、所属服务、数据库名等信息数据表元信息包括表名、schema、访问情况、存储位置等相关信息任务元信息包括任务的类型、依赖、资源配置、计算引擎、调度周期等信息数据服务元信息即数据产品服务,包含服务所属的部门、负责人、产品类型等信息全链路血缘服务DatahubMammutHoo...