内容简介本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据网络数据采集技术:Java网络爬虫实战/钱洋,姜元春著.—北京:电子工业出版社,2020.1ISBN978-7-121-37607-8Ⅰ.①网…Ⅱ.①钱…②姜…Ⅲ.①JAVA语言-程序设计Ⅳ.①TP312.8中国版本图书馆CIP数据核字(2019)第219551号责任编辑:林瑞和特约编辑:田学清印刷:装订:出版发行:电子工业出版社北京市海淀区万寿路173信箱邮编:100036开本:720×10001/16印张:23.75字数:478.8千字版次:2020年1月第1版印次:2020年1月第1次印刷定价:79.00元凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至zlts@phei.com.cn,盗版侵权举报请发邮件到dbqq@phei.com.cn。本书咨询联系方式:010-51260888-819,faq@phei.com.cn。前言近几年,网络空间大数据(BigData)已成为各领域研究的热门话题。在企业应用方面,天猫利用海量的用户数据挖掘年轻消费者偏好,并将用户偏好反馈给手机研发部门,将其用于手机设计;汽车之家利用平台中用户生成的大数据对用户进行画像,在此基础上开展个性化营销。在学术界,很多领域的学者针对大数据衍生出的新问题开展学术研究,如大数据驱动的客户洞察、大数据驱动的个性化推荐、大数据驱动的管理决策等。在网络大数据环境下,数据采集尤为重要。因此,很多企业都提供了(高级)数据采集工程师的职位。对于很多在校大学生而言,尤其是硕士生和博士生,网络数据采集是一项必备的技能。在编写本书之前,笔者主要从事数据采集系统的设计与开发工作。在CSDN社区上,笔者撰写过一系列介绍Java网络爬虫的博客,这些博客为笔者的主页带来...