DOI:10.19392/j.cnki.1671⁃7341.202312001基于SMOTE不平衡扩充采样算法的改进宣晶雪张权李晓红王书宜齐齐哈尔大学理学院黑龙江齐齐哈尔161006摘要:针对不平衡数据集少类样本分类精度低的现象,本文提出了一种新的不平衡数据扩充采样算法。改进算法通过距离度量,在少类样本中心与其近邻间进行随机线性插值,使数据平衡。改进算法与SMOTE算法、C_SMOTE算法分别对5个不平衡数据集进行扩充分类对比实验,基于AUC、OOB、F值与G值评价指标及成对样本T检验,证明改进算法能有效缓解类不平衡,并具有更优异的不平衡数据处理性能。关键词:不平衡数据;SMOTE算法;安全点;噪声点;随机森林算法随着人工智能领域的飞速发展,基于大数据的分类研究被认为是可期待的新技术[1]。由于采样环境差异,大数据通常存在类不平衡。类不平衡问题会产生许多标准学习算法分类性能的严重障碍[2]。分类器进行训练时,往往更易学习多类(负类)样本的特性,从而引起少类(正类)样本被误分,导致严重后果。例如,医学研究的分类问题中,如若有正常样本80个,患病样本20个,即使所有的患病样本都被误分,分类模型的准确率仍能达到80%。但就实际问题而言,误诊会产生严重影响。因此,不平衡数据集的扩充分类显得尤为重要[3]。1SMOTE算法分析SMOTE算法是由Chawla提出的不平衡数据扩充的常见算法[4]。其基本原理是在少类样本与其近邻样本间进行随机的线性插值来完成数据扩充,以达到一定的不平衡比率。不平衡比率为样本集合中少类样本数目与多类样本数目的比值[5]。SMOTE算法的具体步骤为:对任意的一个少类样本xi(i=1,2,…,n),计算xi与其他少类样本的距离,得到样本xi的k个近邻。再从k个近邻中任意选取m个近邻样本,记作xij(j=1,2,…,m),通过在xi与xij之间进行随机的线性插值构造新的少类样本。插值公式为:xnew=xi+rand(0,1)(xij-xi)其中xnew表示人为构造的少类样本,rand[0,1]是区间[0,1]上满足均匀分布的随机数。2改进算法2.1改进算法设计首先,SMOTE算法虽在一定程度上改善了不平衡数据集的分类效果,但其k值需人为确定,具有一定的盲目性[6]。其次,对于边缘点而言,经SMOTE算法扩充后的样本点仍可能是边缘点,导致扩充数据边缘化,...