谨请参阅尾页重要声明及华泰证券股票和行业评级标准1证券研究报告金工研究/深度研究2019年04月22日林晓明执业证书编号:S0570516010001研究员0755-82080134linxiaoming@htsc.com陈烨执业证书编号:S0570518080004研究员010-56793942chenye@htsc.com李子钰0755-23987436联系人liziyu@htsc.com何康021-28972039联系人hekang@htsc.com1《金工:机器学习选股模型的调仓频率实证》2019.042《金工:市值因子收益与经济结构的关系》2019.033《金工:人工智能选股之数据标注方法实证》2019.03偶然中的必然:重采样技术检验过拟合华泰人工智能系列之十九Bootstrap是一种可行的构建“平行A股市场”的重采样方法Bootstrap是一种可行的构建“平行A股市场”的重采样方法,能够模拟机器学习不同环节的随机性,从而检验在真实A股市场中得出的研究结论是否为过拟合。我们分别对样本内数据、样本外数据和回测时间进行Bootstrap重采样,发现在“平行A股市场”中分组时序交叉验证方法的模型性能和单因子回测指标均优于其它两种方法,统计检验结果显著。真实世界的研究结论能够在平行世界中复现,表明该结论为过拟合的可能性较低。我们借助“偶然”的工具,探寻出“必然”的规律。Bootstrap重采样的核心思想是有放回地抽样Bootstrap是一种统计学上的重采样方法,又称自举法,主要用于研究统计量的统计特性。该方法的核心思想是有放回地抽样。对原始数据集进行有放回地抽样,得到N组Bootstrap数据集。每组Bootstrap数据集中,有的样本可能被重复抽到,有的样本没有被抽到。计算每一组Bootstrap数据集的统计量,将得到N组Bootstrap数据集的该统计量的分布,进而得到该统计量的统计量。Bootstrap重采样对机器学习量化研究体系的构建具有指导意义Bootstrap重采样对机器学习量化研究体系的构建具有指导意义。机器学习量化策略开发和传统量化策略开发的重要区别在于,机器学习研究的复杂度、其所涉及的环节、超参数和参数数量远超传统量化研究,任何环节随机性的引入,对最终整个系统都可能造成类似蝴蝶效应式的影响。本文采用Bootstrap模拟不同环节的随机性,系统性地评估随机性对机器学习结果的影响方向和影响程度。机器学习不同环节随机性对模型表现的影响各异三种Bootstrap方案对同一组交叉验证方法的影响方向和程度有区别。Bootstrap样本内数据集相当于向训练集因子值添加小幅扰动,可能小幅削弱模型表现;Bootstrap样本外数据集相当于向测试集因子值添加小幅扰动,可能部分...