第51卷第2期2023年2月硅酸盐学报Vol.51,No.2February,2023JOURNALOFTHECHINESECERAMICSOCIETYhttp://www.gxyb.cbpt.cnki.netDOI:10.14062/j.issn.0454-5648.20220811多保真度数据学习算法的定量噪声评价刘晓彤1,2,王滋明2,欧阳嘉华3,杨涛1,2(1.北京信息科技大学,北京市材料基因工程高精尖创新中心,北京100101;2.北京信息科技大学计算机学院,北京100101;3.暨南大学信息科学技术学院,广州511442)摘要:多保真度数据是当前材料领域数据的主要存在形式。在数据生产端,不同量化方法在材料同种属性的计算上存在较大差距。对于数据消费端的机器学习算法,研究人员为最大化提取数据中知识设计了各种方法。采用定量噪声添加的方法,评价不同噪声强度、类型对不同多保真度数据学习方法的影响,通过迭代降噪验证数据修正方法的适用场景。结果表明:多保真度数据的利用方式至关重要,需对各子数据集中数据量及含噪情况进行综合考量。在使用不同噪声类型与强度构造出的多种数据集上,得益于数据间的协同效应,逐步删除低保真度数据的―Onion”训练方式明显优于按数据集所含噪声减小方向逐个进行的训练方式。在多保真度数据训练中,无论何种噪声强度及训练方式,线性噪声对模型的影响更小。对于采样噪声来说,在各环节更好地模拟了真实多保真度数据,建议被后续研究采用。此外,复杂噪声难以让少量真值数据发挥―纠偏”作用,更适合进行迭代降噪处理。关键词:多保真度;属性预测;机器学习;定量噪声中图分类号:TP181文献标志码:A文章编号:0454–5648(2023)02–0405–06网络出版时间:2023–01–17AQuantitativeNoiseMethodtoEvaluateMachineLearningAlgorithmonMulti-FidelityDataLIUXiaotong1,2,WANGZiming2,OUYANGJiahua3,YANGTao1,2(1.BeijingAdvancedInnovationCenterforMaterialsGenomeEngineering,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;2.SchoolofComputer,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;3.SchoolofInformationScienceandTechnology,JinanUniversity,Guangzhou511442,China)Abstract:Mostdatainmaterialsciencearemulti-fidelitydata.Fromtheviewpointofdataproducer,thereisasystemerrorforanyquantummethod.Formachinelearningalgorithm,asadataconsumer,variousmethodshavebeendesignedtomaximizethenumberofknowledgesextractedfromthemulti-fidelitydata...