1.scrapy项目爬虫项目爬虫爬虫项目中分爬虫文件、管道文件、下载器中间件这三大类。爬虫文件:1.发起请求和处理响应,经过下载器中间件2.从响应中解析具体的数据3.将解析到的数据进行返回,传递给管道文件管道文件:1.负责接收爬虫给的item数据2.把item数据保存到数据库或者文件中下载器中间件:1.预处理爬虫发起的请求,例如获取Cookie池的Cookie并添加到请求头中2.处理回来的响应,例如渲染字体的解密2.scrapydscrapyd是负责运行scrapy项目爬虫的。scrapyd由服务器运行,提供接口供调度使用。scrapyd的官方文档:链接3.gerapy爬虫的管理工具,可以实现打包爬虫,部署爬虫和scrapyd服务调度。使用gerapy工具,将闪职爬虫项目,打包成egg文件,并部署到scrapyd服务中。然后使用gerapy调度scrapyd服务,启动一个任务爬虫,并启动6个或多个工作者爬虫,全部读取Redis中的任务,实现数据的批量处理。因为工作者爬虫的任务全部来自于Redis服务,所以可以随时启动或者关闭工作者爬虫,来实现分布式爬虫的算力控制。总结总结分布式爬虫重点是scrapyd的服务,以及scrapy爬虫的统一任务入口,和统一数据存储。scrapy分布式爬虫,需要有任务发布爬虫和工作者爬虫,分布式重点是任务量大或者增量任务。使用分布式的工作者爬虫,可以随时增大和减少算力,来应对不定的任务量。1