分布式爬虫抓取到的量,最后都是要做大数据分析用。大数据框架,爬虫工程师是需要懂一点的。1.分布式爬虫的必要性分布式爬虫的必要性答案很简单:数据量少没必要,数据量大必须要数据量少没必要,数据量大必须要一个小站,数据量少,写一个脚本爬虫,或者单机爬虫项目,运行个把小时就可以结束,确实不需要上分布式。但是现在数据量大的站,或者你需要抓数据的站,那个数据必须有价值,而且数据量通常是大了才会有价值。你一个单机爬虫几天是抓不完的,就算你的电脑配置高,也不可能在个把月的时间内,抓取玩一个大站的所有数据。单机性能有限,带宽有限,内存有限,面对无法估量数据量的情况,分布式爬虫是你必须上的。2.分布式爬虫的优势分布式爬虫的优势分布式爬虫系统广泛应用于大型爬虫项目中,面对海量待抓取网页,只有采用分布式架构,才有可能在较短时间内完成一轮抓取工作,这也是分布式爬虫系统的意义所在。分布式爬虫系统广泛应用于大型爬虫项目中,面对海量待抓取网页,只有采用分布式架构,才有可能在较短时间内完成一轮抓取工作,这也是分布式爬虫系统的意义所在。分布式爬虫,是一个可以无限拓展性能和算力的爬虫项目框架,如下图。面对不可估量的数据量,采用可扩展的爬虫架构,数据量多的时候,接入更多的机器,启动更多的爬虫,可以更快的获取数据。爬虫的任务,统一从Redis中提取,处理好的数据,统一放到数据库中。随着爬虫的增加,数据库也需要做拓展,防止爬虫太多把数据库搞崩。3.Hadoop目前大数据框架,主体是围绕Hadoop发展的,目前Hadoop已经有20+部件了。而且Hadoop应用非常广泛,包括:搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等,都可以使用它进行部署。Hadoop优点:高可靠性高拓展性高效性高容错性低成本基于这些优点,Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。4.Spark1Spark同样是Apache软件基金会的顶级项目。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。并且Spark在易用性、通用性等方便,也比Hadoop更强。2