基金项目:中国科学院随机复杂结构与数据科学重点实验室(2008DP173182)收稿日期:2021-04-07修回日期:2021-07-09第40卷第4期计算机仿真2023年4月文章编号:1006-9348(2023)04-0310-07基于结巴分词的领域自适应分词方法研究邢玲1,2,程兵1(1.中国科学院数学与系统科学研究院,北京100190;2.中国科学院大学,北京10049)摘要:利用Jieba分词(结巴分词)对中文文本进行分词时,对于领域词组分词效果不是很理想,需要通过加载自定义词典解决这个问题。提出一种领域自适应分词方法,将结巴分词后相邻词语组合为词组,利用标准化点互信息(NPMI)及词频统计两种方法分别计算词组凝聚度,利用左右信息熵计算词组自由度,通过设定凝聚度与自由度阈值识别领域词组,利用文中提出的词性约束规则进一步筛选词组,将得到的词组作为自定义词典加入到结巴分词中,再次对文本进行分词。通过在自己构建的金融和法律领域语料库进行实验,证明了所提算法可以有效发现领域词组,利用该算法进行领域分词时,准确率和召回率高于只利用结巴分词的准确率和召回率。最后提出了一种基于区分不同领域的领域自适应分词算法评价方法。实验结果表明,上述算法能够有效区分不同领域,即可以有效实现领域分词。关键词:结巴分词;领域自适应;标准化点互信息;词频统计;左右信息熵;词性约束中图分类号:TP391文献标识码:BResearchonDomainAdaptiveWordSegmentationMethodBasedonJiebaWordSegmentationXINGLing1,2,CHENGBing1(1.AcademyofMathematicsandSystemsScience,ChineseAcademyofSciences,Beijing100190,China;2.UniversityofChineseAcademyofSciences,Beijing100049,China)ABSTRACT:WhenusingJiebawordsegmentationtosegmentChinesetext,theeffectofsegmentationofdomainwordsisnotverysatisfactory,anditisoftennecessarytoloadacustomdictionarytosolvethisproblem.Thispaperproposesadomainadaptivewordsegmentationmethod,whichcombinestheadjacentwordsafterJiebawordsegmen-tationintophrases,calculatesthecohesiondegreeofphrasesbyusingstandardizedpointmutualinformation(NPMI)andwordfrequencystatistics,calculatesthedegreeoffreedomofphrasesbyusingleftandrightinformationentropy,identifiesthedomainphrasesbysettingthecohesiondegreeanddegreeoffreedomthreshold,andfurtherfiltersthephrasesbyusingthepartofspeechconstraintrulesproposedinthepaper,addtheobtainedphrasesasacustom...