第十八章概率潜在语义分析概率潜在语义分析•概率潜在语义分析(probabilisticlatentsemanticanalysis,PLSA),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。•模型的最大特点是用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词一文本共现数据的过程•假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。•概率潜在语义分析受潜在语义分析的启发,前者基于概率模型,后者基于非概率模型基本想法•给定一个文本集合,每个文本讨论若干个话题,每个话题由若干个单词表示。•对文本集合进行概率潜在语义分析,就能够发现每个文本的话题,以及每个话题的单词。•话题是不能从数据中直接观察到的,是潜在的。基本想法•文本集合转换为文本-单词共现数据,具体表现为单词-文本矩阵•文本数据基于如下的概率模型产生(共现模型):•首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。•概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。•直观上,语义相近的单词、语义相近的文本会被聚到相同的软的类别中,而话“”题所表示的就是这样的软的类别。基本想法•假设有3个潜在的话题,图中三个框各自表示一个话题。生成模型•假设有单词集合,其中M是单词个数•文本(指标)集合,其中N是文本个数•话题集合,其中K是预先设定的话题个数•随机变量w取值于单词集合•随机变量d取值于文本集合•随机变量z取值于话题集合生成模型•概率分布P(d)、条件概率分布P(zld)、条件概率分布P(w|z)皆属于多项分布•P(d):生成文本d的概率•P(zId):文本d生成话题z的概率•P(wIz):话题z生成单词w的概率•一个文本的内容由其相关话题决定,一个话题的内容由其相关单词决定。生成模型•生成模型通过以下步骤生成文本-单词共现数据:•(1)依据概率分布P(d),从文本(指标)集合中随机选取一个文本d,共生成N个文本;针对每个文本,执行以下操作•(2)在文本d给定条件下,依据条件概率分布P(z|d),从话题集合随机选取一个话题z,共生成L个话题,这里L是文本长度•(3)在话题z给定条件下,依据条件概率分布P(wlz),从单词集合中随机选取一个单词w生成模型•生成模型中,单词变量w与文本变量d是观测变量,话题变量z是隐变量•模型生成的是单词-话题-文本三元组(w,z,d)的集合,但观测到的是单词-文本二元组(w,d)的集合•观测数据表示为单词-文本矩阵T的...