基金项目:国家自然科学基金(61806221)收稿日期:2021-06-03修回日期:2021-06-21第40卷第4期计算机仿真2023年4月文章编号:1006-9348(2023)04-0346-04基于改进FocalLoss和EDA技术的UT分类算法王雯慧,靳大尉(陆军工程大学指挥控制工程学院,江苏南京210000)摘要:针对不平衡文本分类问题中少数类样本在分类器上预测精度低的问题,提出了一种基于改进的FocalLoss损失函数和EDA(EasyDataAugmentation)文本增强技术的不平衡文本分类算法。在训练数据层面利用EDA文本增强技术对小样本数据进行增强;考虑到样本训练难易程度的动态变化,改进了FocalLoss损失函数平衡因子参数的设定方式;接着利用增强后的数据和改进后的损失函数结合较为简单且保留文本语序信息的DCNN模型进行分类模型的训练。在搜狗新闻数据集上,控制相同的参数进行对比实验,结果表明EDA技术和改进的Focalloss损失函数对于不平衡问题都有一定的改善作用,综合应用两种技术的算法获得了最好的表现。关键词:不平衡文本;文本增强;代价敏感;分类算法中图分类号:TP301.6文献标识码:BUnbalancedTextClassificationAlgorithmBasedonImprovedFocalLossandEDAWANGWen-hui,JINDa-wei(ArmyEngineeringUniversityofPLA,CommandandControlEngineeringCollege,NanjingJiangsu210000,China)ABSTRACT:Focusingontheproblemthattheminorityclassintheunbalanceddatasethaslowpredictionaccuracybytraditionaltextclassifiers,anunbalancedtextclassificationalgorithmbasedonimprovedFocallossandEDAwasproposed.Firstly,EDAwasusedtoenhancethesmallsampledataattheleveloftrainingdata.Secondly,thesettingmethodofbalancefactorparametersofFocallossfunctionwasimprovedduetothedynamicchangeofthetrainingdif-ficulty.ThentheaugmenteddataandtheimprovedlossfunctionwereusedtotraintheclassificationmodelwiththeDCNNmodelwhichisrelativelysimpleandretainsthewordorderinformation.OnSogouLabs'snewsdata,thesameparameterswerecontrolledtocarryoutcomparativeexperiments.ExperimentalresultsshowthatEDAtechnologyandtheimprovedFocalLossbothmakesomeimprovementontheimbalanceproblem,andtheproposedclassificational-gorithmwhichcombinesthetwohasthebestperformanceintheexperiment.KEYWORDS:Unbalancedtext(UT);Dataaugmentation;Cost-sensitiveness;Classificationalgorithm1引言分类任务是数据挖...