本栏目责任编辑:王力数据库与大数据技术ComputerKnowledgeandTechnology电脑知识与技术第19卷第1期(2023年1月)基于mBERT的东南亚小语种推特文本情感分析贺友程(同济大学电子与信息工程学院,上海201804)摘要:小语种由于其训练语料资源稀缺,在自然语言处理领域一直是一大难题,使用传统的机器学习方法与神经网络方法,具有很大的瓶颈。而跨语言预训练语言模型的出现,对于低资源语种的包括文本分类在内的多项任务,都起到了很大的提升效果。在基于海量语料训练得到的跨语言预训练语言模型mBERT的基础上进行微调,相较于传统的机器学习方法,在情感分析任务的效率和准确度都可得到不错的提升。关键词:小语种;预训练语言模型;文本分类;情感分析;BERT中图分类号:TP391文献标识码:A文章编号:1009-3044(2023)01-0074-03开放科学(资源服务)标识码(OSID):1引言对小语种文本的情感分析的方法,经历了从构建其情感词典并采用基于规则的无监督方法、挖掘其文本特征并采用有监督的分类方法,再到基于跨语种的方法。然而,传统基于机器翻译的方法,或直接将源语种情感词典翻译为目标语种,或直接将目标语种翻译为源语种后进行训练,模型效果不够理想。对于低资源语种的情感分析,文献[1]通过将目标小语种机器翻译为源语种,通过英语情感分类器对目标小语种实现分类;文献[2]提出CoNBiLSTM词嵌入模型在多语言和多领域环境中进行文本分类;文献[3]比较了4种机器学习方法对少量的印尼语推特文本进行情感分析的效果;文献[4]提出LAAE网络模型,通过LSTM+AAE获得跨语言情感向量后利用双向GRU进行情感分类任务;文献[5]提出基于时间卷积注意力胶囊网络的维吾尔语情感分类模型;文献[6]研究了通过多任务学习训练小语种文本的情感分析模型。BERT[7]通过词嵌入、句子类别、位置信息3个维度的特征,通过MLM与NSP进行微调,在包括文本分类在内的多项任务中均取得良好效果。而mBERT跨语言模型则是BERT的一个分支,支持100多种语言的多项NLP任务。本文将mBERT运用到东南亚小语种推特文本的情感分析中,构建目标语种数据集,对mBERT的输出层进行调整后,通过微调训练实现目标东南亚小语种推特文本的情感分析器。2数据预处理与数据集构建Sentiment140[8]是由Go等构建的包含了1,600,000条从推特爬取的推文的数据集,可用于情感分析相关的训练。本文基于其首先构建了源语言的微调训练数据集,并借助谷歌翻译构建了目标语言的微调训练数据集。2.1源语言微调数据集构...