北京市昌平区建材城西路金燕龙办公楼一层电话:400-618-9090一、模块开发----数据预处理1.数据内容样例58.215.204.118--[18/Sep/2018:06:51:35+0000]"GET/wp-includes/js/jquery/jquery.js?ver=1.10.2HTTP/1.1"3040"http://blog.fens.me/nodejs-socketio-chat/""Mozilla/5.0(WindowsNT5.1;rv:23.0)Gecko/20100101Firefox/23.0"字段解析:1、访客ip地址:58.215.204.1182、访客用户信息:--3、请求时间:[18/Sep/2018:06:51:35+0000]4、请求方式:GET5、请求的url:/wp-includes/js/jquery/jquery.js?ver=1.10.26、请求所用协议:HTTP/1.17、响应码:3048、返回的数据流量:09、访客的来源url:http://blog.fens.me/nodejs-socketio-chat/10、访客所用浏览器:Mozilla/5.0(WindowsNT5.1;rv:23.0)Gecko/20100101Firefox/23.0北京市昌平区建材城西路金燕龙办公楼一层电话:400-618-90902.主要目的过滤“不合规”数据,清洗无意义的数据格式转换和规整根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据。3.实现方式使用MapReduce程序对数据进行预处理。预处理过程中有些编程小技巧需要注意:如果涉及多属性值数据传递通常可建立与之对应的javabean携带数据传递注意要实现Hadoop序列化机制---writable接口。有意识的把javabean中toString方法重写,以\001进行分割,方便后续数据入hive映射方便。如涉及不符合本次分析的脏数据,往往采用逻辑删除,也就是自定义标记位,比如使用1或者0来表示数据是否有效,而不是直接物理删除。北京市昌平区建材城西路金燕龙办公楼一层电话:400-618-90904.点击流模型数据4.1.点击流概念点击流(ClickStream)是指用户在网站上持续访问的轨迹。注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(ClickStreamData),它代表了用户浏览网站的整个流程。点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息,我们通过对网站日志的分析可以获得用户的点击流数据。点击流模型完全是业务模型,相关概念由业务指定而来。由于大量的指标北京市昌平区建材城西路金燕龙办公楼一层电话:400-618-9090统计从点击流模型中更容易得出,所以在预处理阶段,可以使用MapReduce程序来生成点击流模型的数据。在点击流...