实验技术与管理第40卷第4期2023年4月ExperimentalTechnologyandManagementVol.40No.4Apr.2023收稿日期:2022-11-23基金项目:中国高等教育学会“十四五”规划专项课题(21JSYB16);国家自然科学基金项目(61972059)作者简介:应文豪(1979—),男,江苏常熟,博士,副教授,主要研究方向为数据挖掘、大数据分析,ywh@cslg.edu.cn。通信作者:钟珊(1983—),女,湖南娄底,博士,副教授,主要研究方向为机器学习、分布式计算,sunshine620@cslg.edu.cn。引文格式:应文豪,孙中强,王诗愉,等.基于Spark的扩展孤立森林算法并行化改造实验设计[J].实验技术与管理,2023,40(4):75-81.Citethisarticle:YINGWH,SUNZQ,WANGSY,etal.ExperimentaldesignofSpark-basedparallelizationtransformationofextendedisolatedforestalgorithm[J].ExperimentalTechnologyandManagement,2023,40(4):75-81.(inChinese)ISSN1002-4956CN11-2034/TDOI:10.16791/j.cnki.sjg.2023.04.010基于Spark的扩展孤立森林算法并行化改造实验设计应文豪1,孙中强2,王诗愉1,钟珊1,龚声蓉1,2(1.常熟理工学院计算机科学与工程学院,江苏苏州215000;2.苏州大学计算机科学与技术学院,江苏苏州215000)摘要:针对海量或高维数据进行异常检测实验时,往往检测速度较慢、效率较低。针对此问题,设计了一种基于Spark分布式计算的扩展孤立森林异常检测算法改造实验。实验基于Spark框架,分别在数据抽样、训练、预测等阶段设计并行化改造方法,通过与单核条件下的算法对比,验证了并行化方法在保证准确性的前提下执行效率得到大大提高。此实验对加深学生对大数据分布式并行处理知识的理解,引导其对海量数据挖掘相关技术的学习兴趣具有积极作用。关键词:大数据并行化;异常检测;孤立森林;数据挖掘;实验设计中图分类号:TP391.4文献标识码:A文章编号:1002-4956(2023)04-0075-07ExperimentaldesignofSpark-basedparallelizationtransformationofextendedisolatedforestalgorithmYINGWenhao1,SUNZhongqiang2,WANGShiyu1,ZHONGShan1,GONGShengrong1,2(1.SchoolofComputerScienceandEngineering,ChangshuInstituteofTechnology,Suzhou215000,China;2.SchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou215000,China)Abstract:Whenperforminganomalydetectionexperimentsonmassiveorhigh-dimensionaldata,thedetectionspeedisoftenslowandtheefficiencyislow.Forthisproblem,ac...