2023.6电脑编程技巧与维护作者简介:姜庆玲(1991—),女,教师,硕士,研究方向为计算机基础应用、数据分析与数据挖掘。基于Python与Requests模块的网络图片爬虫程序设计姜庆玲,张樊(武昌工学院,武汉430065)摘要:在互联网的时代背景下,从大量的网络信息中快速获取批量的图片资源,是一个值得研究的论题。在此基于Python爬虫框架中的5个部分,按照Requests模块的6个步骤,实现快速且批量获取网络图片的爬虫程序设计。实验结果表明,该爬虫程序代码量少、思路清晰、简单易学、结果正确,具有一定的实用性。关键词:爬虫程序;Requests模块;图片爬虫1概述随着“互联网+”时代的到来,人们获取信息的方式渐渐从报刊等传统媒体转为从互联网上获取,信息的时效性和全面性不断提高。网络上的各种的信息也便于人们根据各自需求保存下载,这么多的数据,如何快速获取并保存到本地,就是一个非常重要的问题。文字与图片是构成一个网页的两个基本的元素,文字表示网页内容;图片体现网页的美观[1]。文字的获取方式比图片简单,在此将主要介绍网页中图片的获取,设计一种爬虫程序,实现运行一次爬虫程序就可以获取多张网络图片的功能。现有的爬虫技术大多聚焦于文字信息的获取,例如获取各种新闻网站、网购网站、招生网站等各大网站的文字信息[2~6],或者关注点在各种爬虫框架的研究,例如,比较3种主流爬虫框架的优势和缺点,并给出最佳的网页爬虫设计方案[7~8]。在已有的研究中,也有极少的学者对图片的爬取展开研究,例如,唐婷[9]、王金峰[10]、涂辉[11]分别使用Requests模块、FlickrAPI、urllib库实现单张网络图片的获取;仇明[12]提出使用Beautifulsoup库来分析网页链接、图片链接,再使用Requests库进行页面的访问、文件的下载。在此提出的爬虫程序仅使用Requests模块按照简单的步骤即可实现多张网络图片的获取。2相关技术2.1爬虫及Python爬虫,顾名思义是一种能够爬行的“虫子”,这个“虫子”在互联网上爬行能够获取各种信息,一般是以程序的形式实现。现阶段,能够快速实现爬虫程序的语言是Python语言。该语言免费开源、语法简单、可移植性强,并且拥有丰富的库,基于上述优点,采用Python设计爬虫程序。随着Python中的爬虫库越来越多,逐步形成Python爬虫架构,该框架主要由5个部分组成,分别是调度器、统一资源定位符(URL)管理器、网页下载器、网页解析器和应用程序。调度器的作用是负责协调其他4个部分的工作,URL管理器的作用是集中管...