数据库系统设计DatabaseSystemDesign电子技术与软件工程ElectronicTechnology&SoftwareEngineering229伴随着电影产业的不断发展,网站上的影视和影评资源也越来越丰富。为了给用户和电影产业的决策者提供判断参考,关于电影评论数据的可视化设计得到了广泛的关注[1,2]。但是如何从海量的信息中获取所需的信息和资源成为了一个大问题。网络爬虫(WebCrawler)是按照一定规则主动抓取网页的程序,能够自动根据指定规则提取相应内容,目前使用率非常高[3]。使用网络爬虫技术可以爬取相关网页获得更全面的平台数据,这种方法的难点在于处理反爬虫机制[4]。本文针对热映电影的影评网站数据进行研究,通过网络爬虫技术爬取了国内外四个平台的影评数据,使用Python对数据进行可视化设计,包括文本的词云图、评论主题聚类,评论时间与地点的图形化展示。1数据获取工具本文选取热映电影《新蝙蝠侠》的影评作为研究对象,爬取的数据来自国内的豆瓣电影和猫眼电影以及国外的烂番茄。本文使用Python语言爬取了豆瓣的长评论和短评部分以及猫眼短评部分,使用后裔采集器采集了豆瓣的预评以烂番茄评论部分。使用Python单独爬取的原因在于豆瓣官方有反爬取机制,而猫眼的评论抓取网页是一个结构化json文档无法用自动化爬虫软件进行抓取。1.1Python网络爬取Python爬取数据主要使用了beautifulsoup工具包。豆瓣网从2017年10月开始全面禁止爬取数据。在非登录状态下仅仅可以爬取200条短评,登录状态下仅可以爬取500条数据。白天一分钟最多可爬40次,晚上60次,超过次数就会封IP地址。针对反爬取的问题,本文在请求头、等待时间和cookie登陆上做了设计。对浏览器请求头部分进行设计,模拟自己是PC端电脑浏览器,打开豆瓣的主页,再打开浏览器的开发者工具,输入账号和密码登录豆瓣网。最后使用休眠函数sleep定时休眠防止豆瓣识别是机器人操作。1.2后羿采集器爬取后裔采集器的逻辑比较简单,按照软件自动化爬取流程抓取数据。需要注意的是如果爬取豆瓣影评数据时出现了封IP的情况,需要使用多个不同的IP混拨,并且访问多个不同排序方式的网址。另外,由于不同排序方式可能存在重合的评论,还需要进行评论去重的操作。2数据分析2.1评论时间与地点分析新的电影首映后,国、内外各大影评网站评价便如潮水般涌来。评分的高低固然能体现一部电影的质量与观众缘,但评论量也能体现人们对这部新影片的关注度,本文将把评论量变化与票房变化进行对比,寻找两者之间的联系。以电影《...