收稿日期:2022-08-05∗基金项目:陕西省社会科学界联合会、2022年度国际传播能力建设重点研究项目《日本文学中的中国形象研究与学生文化自信培养》(2022HZ0857);西安翻译学院名实践项目《日语翻译工作坊》(SJ19A03)作者简介:魏海燕(1981-),女,陕西西安人,研究生,副教授。基于改进TF-IDF算法的日本文学语料处理计算机系统方法研究∗魏海燕,沈进(西安翻译学院,西安710105)摘要:对日本文学进行语料处理,有助于快速提取具有一定价值的文本信息,从而方便阅读和理解。为此,基于深度学习算法,构建了日本文学语料处理模型。首先,利用改进TF-IDF算法进行情感语料分类;其次,结合卷积神经网络与自循环思想构建自循环CNN模型,以处理不等长语料的分类问题;最后,结合卷积神经网络与双向门控循环单元处理特定主题语料分类问题。综合上述内容,构建日本文学语料处理模型。经多次实验结果显示,该模型的分类准确率超过90%,表明该模型能够有效实现日本文学的语料处理。关键词:TF-IDF算法;卷积神经网络;语料处理;日本文学中图分类号:TP273文献标识码:ADOI编码:10.14016/j.cnki.1001-9227.2023.01.162ResearchoncomputersystemmethodofJapaneseliteraturecorpusprocessingbasedonimprovedTF-IDFalgorithmWEIHaiyan,SHENJin(Xi’anFANYIUniversity,Xi’an710105,China)Abstract:TheprocessingofJapaneseliteraturecorpusisconducivetotherapidextractionofvaluabletextinformation,soastofacilitatereadingandunderstanding.Therefore,basedonthedeeplearningalgorithm,aJapaneseliteraturecorpuspro-cessingmodelisconstructed.Firstly,theimprovedTF-IDFalgorithmisusedtoclassifyemotionalcorpus;Secondly,combi-ningconvolutionneuralnetworkandselfcirculationidea,aselfcirculationCNNmodelisconstructedtodealwiththeclassifi-cationofunequallengthcorpus;Finally,convolutionalneuralnetworkandbi-directionalgatedcyclicunitarecombinedtodealwiththeclassificationoftopicspecificcorpus.Basedontheabove,aprocessingmodelofJapaneseliterarycorpusiscon-structed.Theexperimentalresultsshowthattheclassificationaccuracyofthemodelismorethan90%,whichshowsthatthemodelcaneffectivelyrealizethecorpusprocessingofJapaneseliterature.Keywords:TF-IDFalgorithm;convolutionalneuralnetwork;corpusprocessing;japaneseliterature0引言基于机器学习的文本分类...