8-13本章知识点复习与总结(1).pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 55.21 KB
约1页
2024-05-16
收藏
评论
点赞(0)
海报
举报

1.scrapy项目爬虫项目爬虫爬虫项目中分爬虫文件、管道文件、下载器中间件这三大类。爬虫文件：1.发起请求和处理响应，经过下载器中间件2.从响应中解析具体的数据3.将解析到的数据进行返回，传递给管道文件管道文件：1.负责接收爬虫给的item数据2.把item数据保存到数据库或者文件中下载器中间件：1.预处理爬虫发起的请求，例如获取Cookie池的Cookie并添加到请求头中2.处理回来的响应，例如渲染字体的解密2.scrapydscrapyd是负责运行scrapy项目爬虫的。scrapyd由服务器运行，提供接口供调度使用。scrapyd的官方文档：链接3.gerapy爬虫的管理工具，可以实现打包爬虫，部署爬虫和scrapyd服务调度。使用gerapy工具，将闪职爬虫项目，打包成egg文件，并部署到scrapyd服务中。然后使用gerapy调度scrapyd服务，启动一个任务爬虫，并启动6个或多个工作者爬虫，全部读取Redis中的任务，实现数据的批量处理。因为工作者爬虫的任务全部来自于Redis服务，所以可以随时启动或者关闭工作者爬虫，来实现分布式爬虫的算力控制。总结总结分布式爬虫重点是scrapyd的服务，以及scrapy爬虫的统一任务入口，和统一数据存储。scrapy分布式爬虫，需要有任务发布爬虫和工作者爬虫，分布式重点是任务量大或者增量任务。使用分布式的工作者爬虫，可以随时增大和减少算力，来应对不定的任务量。1

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容