陌陌综合案例离线与即席查询部分目录Contents陌陌案例需求说明陌陌数据源介绍陌陌案例架构说明陌陌案例离线流程实现学习目标LearningObjectives1.理解陌陌案例架构流程2.能够使用flume完成数据采集任务3.能够完成将数据写入到HBase的操作4.能够使用Hive对hbase表进行映射5.能够使用Phoenix对hbase表进行映射陌陌案例需求说明01在陌陌中,每天都有数千万的用户进行聊天,陌陌公司目前想要对这些聊天记录进行存储,同时还需要对每天的消息量进行实时统计分析,请您来设计如何实现数据的存储以及实时的数据统计分析工作;需求如下:1)选择合理的存储容器进行数据存储,并让其支持即席查询与离线分析工作2)进行实时统计消息总量3)进行实时统计各个地区收发消息的总量4)进行实时统计每一位客户发送和接收消息数量陌陌案例需求说明陌陌数据源介绍•消息数据说明•部署用于生产数据jar包02本次案例,我们会直接提供专门用于生产陌陌消息数据的工具,可以直接部署在业务端进行数据生成即可。接下来部署用于生产数据的工具jar包陌陌数据源介绍消息数据介绍字段名说明msg_time消息时间sender_nickyname发件人昵称sender_account发件人账号sender_sex发件人性别sender_ip发件人IPsender_os发件人系统sender_phone_type发件人手机型号sender_network发件人网络制式sender_gps发件人GPSreceiver_nickyname收件人昵称receiver_ip收件人IPreceiver_account收件人账号receiver_os收件人系统receiver_phone_type收件人手机型号receiver_network收件人网络制式receiver_gps收件人GPSreceiver_sex收件人性别msg_type消息类型distance双方距离message消息第一步:上传生成数据jar包与初始数据集文件到LinuxJar包名称:MoMo_DataGen.jar将上述两个文件上传到linux的/export/data/momo_init目录中陌陌数据源介绍部署用于生产数据jar包mkdir-p/export/data/momo_initrz上传即可第二步:执行jar包格式:java-jarMoMo_DataGen.jar读取初始数据路径输出目的地路径最大随机产生数据间隔时间操作如下陌陌数据源介绍部署用于生产数据jar包cd/export/data/momo_initjava-jarMoMo_DataGen.jarMoMo_Data.xlsx/export/data/momo_data/1000注意说明:•输出路径一定是一个目录,建议输出路径后带/符号•保证输出目录已经存在陌陌数据源介绍查看数据是否正在生产说明:数据会持续不断向MOMO_DATA.dat文件输出陌陌案例架构介绍03陌陌案例架构介绍陌陌案例架构介绍架构选型说明...