本栏目责任编辑:唐一东人工智能ComputerKnowledgeandTechnology电脑知识与技术第18卷第35期(2022年12月)基于无监督的热点话题发现研究闻彬1,熊飞2,陈薇3(1.湖北轻工职业技术学院信息工程学院,湖北武汉430070;2.光谷第十一小学,湖北武汉430070;3.华西证券股份有限公司,四川成都610095)摘要:高校“百度贴吧”经常会有用户发表一些讨论帖,这些信息对于学校来说是非常有用的。但是未经处理的信息无法实时给当局者提供帮助。因此,文章提出一种利用自然语言处理方法获取“贴吧”信息,并实时发现热点话题的方法。本文首先获取网络文本信息,对文本进行预处理,包括分词、去除停用词,再计算文本的TF-IDF值,最后利用无监督学习方法(K-means)对文本进行聚类,从而获取热点话题。从实验结果中可以看出,本方法可以有效地发现“贴吧”中的热点话题。关键词:自然语言处理;热点话题;机器学习;K-means中图分类号:TP391文献标识码:A文章编号:1009-3044(2022)35-0016-03开放科学(资源服务)标识码(OSID):1概述众所周知,互联网已经成为当前人们日常获取信息的主要途径。基于此,人们也乐衷于在互联网上发表自己的看法和观点。但是绝大部分信息可能是没有太大意义的,需要过滤掉不太重要的信息,并从中挖掘出有意义的信息。热点话题发现就是在此背景下应运而生,并引起了广泛的关注。热点话题发现的目的是在海量的数据信息中,找到引起大家共鸣、为大家津津乐道的信息,为当局或者管理者提供实时的情报,也为舆情监控和观点抽取等提供支持。2研究现状话题发现(TopicDetection)[1]是指分析大量语料,在无需人工监督的情况发现文本中的热点话题。话题发现常用的方法主要有三类:基于聚类的、基于主题模型和基于词共现的方法。Xie[2]等人针对微博信息,首先提出用句子嵌入法来表示微博文本,然后再提取微博子主题,最后利用K-means[3]聚类算法对实验结果进行验证,实验结果显示,该算法取得较好的效果。Mathioudakis[4]等人建立了TwitterMonitor系统,该系统可以通过实时监测微博文本信息,并实时发现热点话题,最后创建图表来对热点话题进行显示。目前的话题发现学习方式主要有监督学习和无监督学习。2.1有监督学习在监督学习中,通过给出训练数据集,并在数据集中标注类别,训练机器并让其能够识别出是哪个类别,图1为有监督学习流程图。图1有监督学习流程图有监督学习原理如图2所示。图2有监督学习图2中,分别对狗类和猫类进行了正确分...