为价值发现提供线索——爬虫与大数据在投研场景的应用罗军S0260511010004安宁宁S0260512020003文巧钧S0260517070001陈原文S0260517080003邮箱:wenqiaojun@gf.com.cn广发证券金融工程2018年12月7日金融工程|专题报告2018年12月7日证券研究报告1资产管理机构开始应用大数据辅助投资决策---RSMetrics通过高分辨率卫星影像,对零售店、办公楼等的停车场进行车流监控,预估企业运营状况;CargoMetrics用卫星监控航运数据研究背景---2018年,JP摩根强制要求新入职的分析师学习Python---iSentium通过推特情绪指标进行择时大数据如何获取?什么叫Python,其在大数据技术中的角色?2请务必阅读末页的免责声明3公司公告、调研事件、研究报告新闻、媒体舆情(消费类公司)销量、网站流量数据数据获取投研数据销量、流量数据新闻、社交媒体数据公司公告传统投研手工获取数据爬虫:自动获取网页内容的程序,模拟人的操作将网页信息采集下来智能投研爬虫获取数据大数据获取请务必阅读末页的免责声明通过爬取股吧数据,获取市场舆情爬虫:自动获取网页内容的程序,模拟人的操作将网页信息采集下来电脑磁盘手工抓取数据爬虫抓取数据输入“广发证券”股票代码,进入股吧将股吧内容存储为txt大数据获取4请务必阅读末页的免责声明爬虫NLP分词、语义理解、情绪分析、……数据科学统计分析、机器学习、数据可视化办公自动化工具Python是近年来最热门的编程语言Python用途广泛,包括:网络爬虫、自然语言处理(NLP)、数据科学、办公自动化、等等大数据获取5请务必阅读末页的免责声明广发金工通过网络爬虫和文本挖掘技术,覆盖了公司公告、研究报告、社交网络、门户网站、搜索热度等方面的另类数据。爬虫与文本挖掘体系搜索引擎《网络舆情概念轮动》《搜索舆情下的行业轮动》《网络舆情下的大类资产配置》网络媒体《个股新闻热度》《财经门户选股》《热点题材动向》《关联个股投资机会》股吧、社交《股吧情绪挖掘》《微信热度挖掘》《雪球热度挖掘》《网络搜索热度挖掘》研究报告《研报热点挖掘》《汇丰PMI前沿挖掘》公告、财报《公告抓取》《公告分类监测》《个股信息变动挖掘》《特定公告内容挖掘》广发金工大数据爬取与分析框架分析框架6请务必阅读末页的免责声明7大数据应用通过大数据技术,获取新闻、搜索引擎、产业等网站数据,有助于对市场走势、产业与公司经营趋势进行分析市场走势分析新闻、搜索等数据行业与公司经营观察产业网站数据大数据技术...