贪心科技|让每个人享受个性化教育服务Review:PaperReadingReadingWikipediatoAnswerOpen-DomainQuestions范老师2020/04/19贪心科技|让每个人享受个性化教育服务ContentBackgroundRelatedWorkProblemDefinitionSystemDesignDataExperimentConclusionandFutureWorkReference贪心科技|让每个人享受个性化教育服务BackgroundOpen-domainFactoidquestion1.Noboundary2.Semanticconflicting1.Shouldsearchencyclopedia2.Maybeconcernwithanswergenerationafterretrieving贪心科技|让每个人享受个性化教育服务RelatedWork1.StructuredKBshavelimitationstouse•incomplete•Rigidschemas2.Fewdeeplearningmethodisusedonmachinecomprehensionoftexts3.ExistingfullpipelineQAapproaches•Nomachinecomprehension•Usemultipleresourcestosearchanswers4.Multitasklearning•Improveachievementbytasktransfer•Ageneralsystem贪心科技|让每个人享受个性化教育服务ProblemDefinitionOpen-domainquestionanswerforfactoidquestionsbyreferringtoWikipedia.i.Usetheresourcewikipediaonlyii.searchiii.Machinecomprehension贪心科技|让每个人享受个性化教育服务SystemDesign贪心科技|让每个人享受个性化教育服务SystemDesign1.DocumentRetrieveri.Invertedindex(倒排索引)ii.TF-IDFweightedbag-of-wordvectorsWordsfromquestionsCandidatedocumentlistforeachwordbasedoniRankeachlistbasedoniiWeightedtherankofeachlistandoutputtop5贪心科技|让每个人享受个性化教育服务SystemDesign2.DocumentReader•ParagraphEncoding=wordembeddings+exactmatch+tokenfeatures+alignedquestionembedding使用LSTM得到其中,输入由四个特征拼接而成。i.wordembeddings:使用Glove输出的词向量,并对前1000个频繁出现的词进行微调ii.将一段话P中的每个词的原型、小写化型和词形还原后的形式与问题Q中的每个词进行比较,得出来0/1取值的三个比较结果,作为最终词向量的位数组成。iii.将一段话P中的每个词的词性、实体识别类别、归一化后的词频作为最终词向量的位数组成。iv.使用一个单层稠密层加上ReLU得到每个词的embedding,再点乘比较相似度和计算加权值,并最终生成反应语义相似度的embedding。贪心科技|让每个人享受个性化教育服务SystemDesign•QuestionEncoding使用第二个RNN网络,输入为Glove词向量,输出为RNN隐层的加权向量拼接,其中bj是使用att...