马晨(sharpstill@163.com)前言I前言LDA算法是主题模型领域非常著名的算法,值得深入研究应用,该算法也有很深刻的数学背景和技术启发。曾经有哲人说:万物皆数。我个人是个十分喜欢数学,喜欢算法,热爱技术的人,非常想从算法中寻找人工智能的永恒之道。我尤其记得19世纪的数学家赫尔曼.汉克尔说的好:就大多数学科而言,一代人摧毁的正是另一代人所建造的,而他们所建立的也必将被另一代人所破坏。只有数学不同,每一代人都是在旧的建筑物上加进新的一层。所以说,数学的价值还具有一种永世不灭的恒久性,其他学科的时尚潮流往往随着时代的变迁被人遗忘,那些旨在改变世界的理想,最终往往变成思想垃圾。而只有数学和算法与此不同。我们探究前人伟大的成果时,就能体会到奥利弗.亥维赛的精辟论说:“逻辑能够很有耐性,因为它是永恒的”。我在选择分析LatentDirichletAllocation(LDA)这个算法课题时,我考虑了很多因素,首先,该算法是已经被学术界和工业界广泛接受的;其次,该算法能带来更多的新技术启示;最后,该算法能为您的工作,您的研究带来最具实用性的技术启发。LDA算法恰好满足了这个条件。虽然网上已经有许多分析LDA算法的博客文章,但是网上的博文相对零散不成体系,读者阅读起来有较大困难,我的目标是不放弃任何一位读者,只要读者有恒心和毅力,就一定可以从这部作品中受益,为什么需要这本书,因其有独特的价值:1.这部作品理论与实践并重:网上的同类文章非常零散,理论推导部分也缺乏关键细节,这部作品的每一条公式都由作者手把手为您推理(每一条公式都有详细的解释和备注),并且按照初学者的思路娓娓道来,从逻辑链条上打通算法的整个环节,让用户有醍醐灌顶的认识。并且在实践部分,作者以多年的工作实践经验为基础,精选了6个实现简单但又有巨大应用价值的LDA的应用方法,这些精选的应用方法将成为读者未来工作实践不可多得的资料。2.这部作品饱含了作者的独到见解:这部作品最大的特色是从理论分析开始就有包含着许多作者自己独到的理解和分析,从不同角度完美解释算法的整个流程。前言II3.读者可以在这部作品各取所需:有的工程师对于算法推导不是很感兴趣,这种情况下可以跳过前几章,直接从第4章读LDA算法怎么具体实现。如若未来有兴趣研究LDA的来龙去脉时,可以再来看前几章的理论推导部分。如果读者对大数据环境下的LDA感兴趣,包括怎么在Hadoop、Spark上实现LDA算法可以直接看第5章。4.这部作品首次将LDA引入大数...