计算机与现代化JISUANJIYUXIANDAIHUA2023年第1期总第329期0引言在数据挖掘中,异常检测是指对不符合预期模式的样本进行识别,从数据集中识别出与大多数样本差异较大的对象。异常点也被称为离群值、噪声和偏差等[1],通常被认为是与其他数据点明显不同或不符合整体预期正常模式的数据点[2]。异常检测是数据挖掘领域中一个重要的方面,被广泛应用于各个领域。例如,在医学领域中,异常数据可能意味着禽流感等传染类疾病的预警,而在天文领域中,异常数据则可能标志着新星的发现[3-6]。因此,异常数据可能具备和正常数据相等的科学价值。近年来,国内外学者对异常检测领域进行了深入的探讨,提出了许多实用性很高的异常检测算法,为异常检测的进一步研究奠定了基础。Domingues等[7]对常见的异常检测算法进行了分类总结,并根据异常检测所使用技术的不同,分为基于连接函数的异常检测方法[8](Copula-BasedOutlierDetection,COPOD)、基于距离的异常检测方法[9]和基于密度评估的异常检测方法等。其中基于密度评估的局部离群因子检测方法[10](LocalOutlierFactor,LOF)解决了数据倾斜分布下的异常检测问题。LOF通过计算局部可达密度来得到每一个样本点的局部离群因子,最后根据阈值判断该样本点是否异常。但是,基于密度评估的文章编号:1006-2475(2023)01-0088-07基于模拟退火的扩展孤立森林异常检测算法王诗愉1,肖利东1,严心淳2,应文豪1(1.常熟理工学院计算机科学与工程学院,江苏常熟215500;2.常熟市医学检验所,江苏常熟215500)摘要:扩展孤立森林(ExtendedIsolationForest,EIF)有效解决了孤立森林(IsolationForest,iForest)对局部异常点不敏感的问题,但EIF将轴平行的孤立条件更替为使用随机斜率的超平面,导致算法模型损失了一部分泛化能力,并由于大量的向量点乘运算增加了时间开销。针对上述情况,提出一种基于模拟退火的扩展孤立森林算法(ExtendedIsolationForestbasedonSimulatedAnnealing,SA-EIF)。该算法根据每棵孤立树(IsolationTree,iTree)对于数据集的预测结果计算每棵iTree的精度值和差异值,并基于此构建适应度函数,最终利用模拟退火算法筛选数棵检测性能较优的iTree构建集成学习模型。在ODDS异常检测数据集中进行K折交叉验证的实验结果表明:SA-EIF算法对局部异常点敏感,较现有的EIF算法减少约20%~40%的时间开销,提高约5%~10%的检测精度。关键词:扩展孤立森林;孤立森林;模拟退火;异常检...