第30卷第2期2023年4月海南热带海洋学院学报JournalofHainanTropicalOceanUniversityVol.30No.2Apr.2023收稿日期:2022-10-20基金项目:中央引导地方科技发展专项项目(2021ZYD0003)第一作者:刘晶,女,四川遂宁人,在读硕士研究生,研究方向为软件缺陷预测、迁移学习。通信作者:闵帆,男,重庆人,教授,博士,博士生导师,研究方向为机器学习。基于DiWCSmSTL的跨项目软件缺陷预测刘晶a,闵帆b,宋国杰c(西南石油大学a计算机科学学院;b理学院;c机器学习研究中心,成都610500)摘要:为了在诸多新项目中快速找到用于迁移的最优参考项目,解决基于迁移学习的跨项目缺陷预测(CrossProjectDefectPrediction,CPDP)应用中存在的由单源选择性偏差而导致的缺陷预测性能稳定性问题,提出了用于跨项目缺陷预测的双重初始权重的代价敏感多源迁移学习模型(DoubleinitialWeightsandCostSensitivemulti-SourceTransferLearning,DiWCSmSTL),采用多源替代单源从而减少选择偏差以获得更稳定的性能。本研究模型首先融合行业内不同的数据支持多源迁移;然后利用动态性能评估进行代价敏感的源项目选择以减少负迁移的影响;最后对所融合的数据设置双重初始权重以获得稳定的模型。在3个开源数据集上进行实验,结果表明:基于多源融合的预测模型比单源融合能够获得更稳定的性能;代价敏感和双重权重设置既能有效缩短缺陷预测模型生成时间,又能在曲线下面积(Areaunderthecurve,AUC)和几何平均值(Geometricmean,Gmean)指标上均取得改进。关键词:迁移学习;缺陷预测;跨项目;多源融合中图分类号:TP181文献标识码:A文章编号:2096-3122(2023)02-0051-11DOI:10.13307/j.issn.2096-3122.2023.02.070引言传统的利用机器学习技术的缺陷预测研究主要用于项目内或公司内软件缺陷预测。缺陷预测领域主要涉及度量元分析设计、数据处理(包含高维数据处理,异常数据处理)、类不平衡处理、以及模型构建、缺陷预测目标设计等[1]。缺陷预测算法有朴素贝叶斯,决策树,支持向量机,逻辑回归,随机森林等。结合软件缺陷预测的特点,尤其是类不平衡分布,在传统学习算法的基础上,研究者们重点关注迁移学习的数据处理方面和模型构建。在数据处理方面,在采样细分领域通过增加类内离散度信息并结合支持向量清洗策略,从而使项目分布均匀,同时增加正例特征与减少反例特征两个方面对特征进行筛选,进行特征降维的同时在一定程度上减少了噪声影响[2]。而针对连续发布版本的项目,可以...