第二十章潜在狄利克雷分配潜在狄利克雷分配•潜在狄利克雷分配(latentDirichletallocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,•LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用潜在狄利克雷分配•LDA模型是文本集合的生成概率模型•假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示•特别假设文本的话题分布的先验分布是狄利克雷分布,话题的单词分布的先验分布也是狄利克雷分布•先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象潜在狄利克雷分配•LDA的文本集合的生成过程如下:•首先随机生成一个文本的话题分布•之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题•然后在该位置依据该话题的单词分布随机生成一个单词,直至文本的最后一个位置,生成整个文本。•重复以上过程生成所有文本。潜在狄利克雷分配•LDA模型是含有隐变量的概率图模型•模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量•文本的每个位置的单词是观测变量•LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样(Gibbssampling)和变分EM算法(variationalEMalgorithm),前者是蒙特卡罗法,而后者是近似算法。狄利克雷分布分布定义•1.多项分布•多项分布(multinomialdistribution)是一种多元离散随机变量的概率分布,是二项分布(binomialdistribution)的扩展。•假设重复进行n次独立随机试验,每次试验可能出现的结果有k种,第i种结果出现的概率为pi,第i种结果出现的次数为ni•如果用随机变量表示试验所有可能结果的次数,其中Xi表示第i种结果出现的次数,那么随机变量x服从多项分布分布定义•当试验的次数n为1时,多项分布变成类别分布(categoricaldistribution)•类别分布表示试验可能出现的k种结果的概率分布定义•2.狄利克雷分布•狄利克雷分布(Dirichletdistribution)是一种多元连续随机变量的概率分布,是贝塔分布((betadistribution)的扩展•在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用分布定义分布定义•式中是伽马函数,定义为•具有性质•当s是自然数时,有分布定义•由于满足条件•所以狄利克雷分布存在于(k1)维单纯形上•右图为二维单纯形上的狄利克雷分布•狄利克雷分布的参数为分布定义•令•则狄利克雷分布的密度函数可以写成•是规范化因子,称为多元贝塔函数(或扩展的贝塔函数...