提交截止:2018年7月7日,11:59PM。对于之后提交的作业,不不提供任何的反馈,并不不会加⼊入到课程总分当中。对于按时提交的项⽬目,我们会在10个⼯工作⽇日内给与反馈。项⽬目⽬目标:利用⽹网络上公开的数据来搭建一个小型的证券知识图谱数据源:本项目需要用到两种数据源:一种是公司董事的信息,另一种是股票的行业以及概念信息。-公司董事的信息:这部分数据包含在"exe_member.zip"压缩⽂文件中,⾥里里⾯面的每⼀一个⽂文件是以“XXXXXX.html”命名,其中XXXXXX是股票代码。这部分数据是由同花顺的⽹网⻚页爬取而来的。比如对于“600007.html”,这部分内容来自于http://stockpage.10jqka.com.cn/600007/company/#manager-股票行业以及概念信息:这部分信息也可以通过⽹网上公开的信息得到。在这⾥里里,我们使⽤用Tushare工具来获得,详细细节⻅见之后具体的任务部分。
任务1:从⽹网⻚页中抽取董事会的信息。(20%)在我们给定的html文件中,需要对每一个股票/公司抽取董事会成员的信息,这部分信息包括董事会成员“名字”、“职务”、“性别”、“年龄”共四个字段。首先,姓名和职务的字段来自于:�在这里总共有12位董事成员的信息,都需要抽取出来。另外,性别和年年龄字段也可以从下附图⾥里里抽取出来:�
最后,生成一个“executive_prep.csv”文件,格式如下:高管姓名、性别、年龄、股票代码、职位朴明志,男,51,60007,董事⻓长、董事高燕,女,60,600007,执⾏行行董事刘永政,男,50,600008,董事⻓长、董事........................
任务2:获取股票⾏行行业和概念的信息。(10%)对于这部分信息,我们可以利利⽤用Tushare工具来获取,官⽹网为http://tushare.org/index.html,并可以从官⽹网下载Tushare工具包。下载完之后,在python里即可以调用股票行业和概念信息。通过以下的代码即可以获得股票行业信息,并把返回的信息直接存储在“stock_industry_prep.csv”文件里。http://tushare.org/classifying.html#id2importtushareastsdf=ts.get_industry_classified()//TODO保存成"stock_industry_prep.csv"类似的,可以通过以下的代码即可以获得股票概念信息,并把它们存储在“stock_concept_prep.csv”文件里。df=ts.get_concept_classified()//TODO保存成“stock_concept_prep.csv”
任务3:设计知识图谱(20%)设计⼀一个这样的图谱:-创建“人”实体,这个⼈人拥有姓名、年年龄、姓名-创建“公司”实体,除了了...