分享
基于TI-LSTM的文本自动分类算法及应用_陈玉天.pdf
下载文档

ID:2251296

大小:1.29MB

页数:7页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 TI LSTM 文本 自动 分类 算法 应用 陈玉天
长春理工大学学报(自然科学版)Journal of Changchun University of Science and Technology(Natural Science Edition)Vol.46No.1Feb.2023第46卷第1期2023年2月陈玉天,等:基于TI-LSTM的文本自动分类算法及应用收稿日期:2022-06-15基金项目:吉林省教育厅项目(JJKH20210809KJ);长春理工大学大学生创新创业训练计划项目(2021019)作者简介:陈玉天(2001-),男,本科生,E-mail:通讯作者:施三支(1968-),女,博士,教授,E-mail:基于 TI-LSTM 的文本自动分类算法及应用陈玉天,陈洋,梁恒瑞,孙绍宇,施三支(长春理工大学数学与统计学院,长春130022)摘要:为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于 TF-IDF 和神经网络相结合的文本自动分类算法TI-LSTM 算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用 TI-LSTM 算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的 KNN、逻辑回归、朴素贝叶斯和 LSTM 分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了 86%以上。关键词:神经网络;文本分类;特征提取;文本量化;贫困生中图分类号:OP24文献标志码:A文章编号:1672-9870(2023)01-0130-07Research on Automatic Text Classification Based on TI-LSTMCHEN Yutian,CHEN Yang,LIANG Hengrui,SUN Shaoyu,SHI Sanzhi(School of Mathematics and Statistics,Changchun University of Science and Technology,Changchun 130022)Abstract:In order to solve the problem of Chinese text classification and improve the accuracy,a text automatic classifica-tion algorithm based on TF-IDF and neural network is proposed named by TI-LSTM algorithm in this paper.Firstly,thecorresponding features are extracted and quantified in the algorithm according to the semantic situation.Then the quantifiedfeatures are trained and weighted with the long-short term neural network(LSTM).Finally,Chinese text information isevaluated based on feature weight.This method has been successfully applied to the classification of poverty-strickenstudents in our school.Compared with traditional KNN,logistic regression,naive Bayes and LSTM classification methods,the accuracy of training and testing has been greatly improved.The automatic text classification algorithm in TI-LSTMalgorithm can extract features accurately with the original text semantic,and the average accuracy rate is over 86%.Key words:neural network;text classification;feature extraction;text quantification;poverty-stricken students语言是人类最主要的沟通工具。随着计算机的应用越来越广泛,计算机理解文本和语言变得越来越重要。文本分类任务是计算机进行自然语言处理(NLP)中一项很常见也很重要的任务1。在文本分类中,常用的特征提取方法有信息增益方法(IG)2、文档频率方法(DF)3、CHI 方法4、互信息方法(MI)5、期望交叉熵6等。本文中使用基于词频-逆文本频率(TF-IDF)7的统计方法。TF-IDF 相比于其他方法更加简单,处理文本比较快速,结果符合预期,适合处理一些复杂度适中的文本,在分类算法的选择上,目前存在各种各样的文本分类算法,如决策树8、深度森林9、SVM(支持向量机)10、CNN(卷积神经网络)11、RNN(循环神经网络)12、KNN(临近算法)13、ANN(人工神经网络)14等,本文使用长短期神经网络(LSTM)15来训练特征权重,可得到较好的文本分类结果。1相关理论建立 TI-LSTM 算法所用到的相关理论有文本预处理、特征提取和LSTM,下面给出它们的定义。1.1文本预处理文本预处理是文本量化的基础和关键环节,通过将待量化文本处理为相对统一的格式,以便于后续的特征提取。分词是中文文本预处理的一项基础技术,常见的分词方法有基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法16和贝叶斯分类17。本文采用的分词方法有 jieba 分词和 tokenizer 分词方法。1.2特征提取特征提取通过去掉不影响语义的无用词来减少运行的时间复杂度,可以大幅提高机器学习的效率。目前常见的特征提取方法有随机映射法(RP)18、期望交叉熵、Word2vec19、Doc2vec20、IG、RP、DF、MI、CHI和TF-IDF等。本文采用TF-IDF进行文本特征提取。TF-IDF 是一种以词频为权重的文本表示方法,可以评估文章中某个词的重要程度。TF-IDF的计算公式为:TF_IDF=tf idf(1)其中,tf表示词在文中出现的频率;idf表示词的一般重要性。1.3LSTMLSTM 是循环神经网络(RNN)的变种之一,可以学习长期依赖信息。LSTM 在 1997 年由 Hochreiter 和 Schmidhuber 提 出21,并 在 2012 年 被Graves 进行了改良和推广22。很多时间序列问题在 LSTM 上都得到了解决。2TI-LSTM 分类算法本文通过将 TF-IDF 和长短期神经网络相互结合的方法构建了 TI-LSTM 文本分类算法,如图1 所示。图 1TI-LSTM 分类算法该算法主要由 6 个部分组成:(1)输入层:将文本数据导入到算法;(2)预处理层:对文本进行清洗、合并,根据语义情景进行分词,划分训练集并对训练集进行类内平衡;(3)特征提取层:使用 TF-IDF 对文本特征进行提取;(4)字典层:将 提 取 后 的 特 征 转 化 为 词 向 量;(5)LSTM层:对特征进行训练并赋予权重;(6)输出层:实现文本分类并输出结果。2.1预处理层如图2所示,预处理的工作主要分为以下几点:图 2文本预处理方法(1)通过将文本进行数据清洗,填充缺失文本,筛除异常文本。(2)清洗后的数据进行合并,降低时间复杂度。(3)使用分词工具对文本进行分词和去停用词,并在分词过程中人工添加较为复杂的词组以提高分词结果的准确率。陈玉天,等:基于TI-LSTM的文本自动分类算法及应用第1期131长春理工大学学报(自然科学版)2023年(4)将文本数据划分为训练集和测试集,通过类内平衡来提高训练的准确率。同时降低LSTM 神经网络的过拟合现象。2.2特征提取层特征提取是指对已有文本数据进行过滤,获取重要特征,形成特征集,提取过程如图 3 所示。本文主要使用的特征提取方法为 TF-IDF。由于词语在文本中的出现频率并不能反映其重要性,所以需要对公式进行略微修改,根据公式(2)计算其 IDF 值:IDF()x=logN+1N()x+1+1(2)由此可以得到 TF-IDF 值的计算公式:TF_IDF=TF()x IDF()x=TF(x)(logN+1N()x+1+1)(3)其中,N为语料库的文档总数;N(x)为全部文档中包含第x个词的文档个数。图 3特征提取方法2.3字典层将提取后的特征通过 IDF 值由大到小的顺序加入字典,字典结构如图 4 所示,由于特征提取层提取的部分特征与报告中的选项有重复,不仅对训练效果没有帮助,还可能提高训练的时间复杂度,因此可以通过建立禁用词消除重复特征,最后以遍历的方式来删除字典中含有的禁用词。图 4字典结构图2.4LSTM 层LSTM 层是一种含有 LSTM 区块的神经网络层,它可以记住不同时间长度的值,区块中有三个门决定输入是否足够重要、是否可以被记住、是否可以输出。图 5 中有四个函数单元,最左边xt数值依情况可能成为区块的 input。xt数值会经过三个门决定 input 是否能传入和输出区块。it函数是一个输入门。如果这里生成的值接近于零,则它将在这里屏蔽该值,而不会进入下一级。ft函数是遗忘门,当这产生值近似于零,将把区块里记住的值忘掉。ot函数为输出门,它可以决定在区块记忆中的 input 是否能输出,产生值近似于零,input 不输出。ct函数是 cell state,用于传递,是算法中的记忆空间。图 5LSTM 层的模型结构变量:(1)xt Rd:LSTM 的输入。(2)ft Rh:遗忘门。(3)it Rh:输入门。(4)ot Rh:输出门。(5)ht Rh:隐藏状态。(6)ct Rh:单元状态。(7)W Rh dU Rh hb Rh:训练中的矩132阵,网络学习计算元值。图 5 中节点的运算方程为:ft=g(Wfxt+Ufht-1+bf)(4)it=g()Wixt+Uiht-1+bi(5)ot=g()Woxt+Uoht-1+bo(6)ct=ftct-1+itc()Wcxt+Ucht-1+bc(7)ht=oth()ct(8)3实证研究3.1数据来源本文实验数据为长春理工大学近四年的贫困生文本数据,共计 3 891 条,该数据总共分为 2个大类和 6 个小类,其中有 3 个小类为学生根据自身情况填写,另 3 个小类由辅导员进行走访调查后填写,该数据能切实反映学生的家庭状况和经济情况,具体内容如表 1 所示。表1贫困生文本数据/条年份2017201820192020导员评价1 1439541 015779自我评价1 1439541 015779健康状况1 1439541 015779资产描述1 1439541 015779其他描述1 1439541 0157793.2文本量化将文本数据进行清洗、合并、分词,降低训练的时间复杂度,并把分词后的文本划分为训练集和测试集,具体划分如表 2 所示。表2各年训练集与测试集/条类别训练集测试集2017年数据9162272018年数据7641902019年数据8132022020年数据623156总数据3 116775通过利用 TF-IDF 对训练集数据进行特征提取,同时依据特征权重构建词云图,其结果如图6 所示。根据特征出现的频率将特征依次输入词嵌入层,建立字典,并导入 LSTM 层进行训练,通过对不同年份的数据进行相互组合,增加神经网络的训练次数。图 6特征词云图3.3训练过程与结果每一轮从训

此文档下载收益归作者所有

下载文档
收起
展开