第44卷总第131期2023年9月西北民族大学学报(自然科学版)JournalofNorthwestMinzuUniversity(NaturalScienceEdition)Vol.44,No.3Sep,2023藏文单音节单纯词抽取方法设计与实现才让东知12,祁坤钰1,2,贡保杰布3(1.西北民族大学甘肃省民族语言智能处理重点实验室,甘肃兰州730030;2.西北民族大学中国民族语言文字信息技术教育部重点实验室,甘肃兰州730030;3.青海师范大学计算机学院,青海西宁810000)[摘要]针对藏文词汇资源匮乏和词汇分级模糊等问题,采用词典语料和词性标注语料相结合的方法,设计了藏文单音节单纯词抽取模型,规划了详细的技术方案,构建了比较完整的词典语料库,获得了藏文单音节单纯词的分类词表,依据相对通用度得到了分级词表,其中名词、动词、形容词、副词和数词等单音节单纯词总数1414条,词性之间存在大量的兼类现象,对汉藏语言资源库建设具有重要意义。[关键词]藏文单纯词;抽取模型;语料库[中图分类号]]TP391[文献标识码]A[文章编号]1009-2102(2023)03-0016-090引言语言是文化的重要载体,而词汇则是文化观念在语言中的主要承载者[1.在藏文中,单纯词是最基本的词汇单位之一,它由一个单独的词素构成,与合成词相对.单纯词的主要词性为名词、动词、形容词和副词,是藏文词汇表达的重要组成部分.其在自然语言处理中的抽取是一个关键任务,对藏文机器翻译、信息检索、语音识别等任务具有重要作用.一个语素构成的词在英语中通常被称为“monomorphemicword"①,其中“mono-"表示单一的语素,“morphemic"表示词素,“word"表示词.这种词通常是最简单的词汇单位,通常由一个基本的词根或词干构成,没有任何前缀或后缀.例如,英语单词“dog"由单一的词根“dog”组成,是一个典型的mono-morphemicword.在汉语中,单纯词也是由一个语素构成的词.在传统的藏文文法中,单纯词没有从词的结构进行说明,但现在大多数学者将其与“355"相对应起来.单纯词与复合词形成鲜明对比,为藏文词汇的形态构成提供了重要的语法形式.本文提供了一种可用于其他NLP任务的藏文单纯词抽取方法,对促进藏文NLP应用的发展和汉藏语言资源库建设具有重要意义.1单纯词抽取的意义及语料库的概述单纯词抽取是一种文本挖掘技术[2},它的主要目的是从给定的文本语料库中提取出所有的单词(或①“Amonomorphemicwordisawordconsistingofasinglemorpheme;examplesinEnglishincludesuchwordsascat,red,pen,andsoon."(Bauer,1983,p.3)[收稿日期]2023-04...