谨请参阅尾页重要声明及华泰证券股票和行业评级标准1证券研究报告金工研究/深度研究2018年11月28日林晓明执业证书编号:S0570516010001研究员0755-82080134linxiaoming@htsc.com陈烨执业证书编号:S0570518080004研究员010-56793927chenye@htsc.com何康联系人hekang@htsc.com1《金工:周期轮动下的BL资产配置策略》2018.112《金工:酌古御今:指数增强基金收益分析》2018.103《金工:动量增强因子在行业配置中的应用》2018.10对抗过拟合:从时序交叉验证谈起华泰人工智能系列之十四时序交叉验证方法适用于时间序列数据,能够有效防止过拟合交叉验证是选择模型最优超参数的重要步骤,本文关注传统交叉验证和时序交叉验证的比较。我们采用机器学习公共数据集以及全A选股数据集,分别比较两种交叉验证方法的表现。结果表明,对于时序数据,时序交叉验证方法在训练集上的表现相对较差,但是在测试集上表现更好。传统交叉验证方法面对时序数据表现出较明显的过拟合,而时序交叉验证方法能够有效防止过拟合。借助时序交叉验证的机器学习选股策略能够获得更高并且更稳定的收益。推荐投资者在选择机器学习模型超参数时,使用时序交叉验证方法。传统交叉验证用于时序数据可能出现未来信息预测历史的“作弊”行为交叉验证的核心思想是将全部样本划分成训练集和验证集,考察模型在两部分的表现是否接近。如果训练集的表现远优于验证集,说明模型存在过拟合的风险。根据训练集和验证集的划分方式,传统交叉验证方法可细分为简单交叉验证、K折交叉验证、留一法和留P法。当样本是时间序列时,数据存在序列相关性,不满足样本独立同分布假设。采用传统交叉验证会将未来数据划入训练集,历史数据划入验证集,进而出现用未来规律预测历史结果的“作弊”行为。时序交叉验证既能保证数据利用率,又能保留时序数据之间相互关系,适用于时序数据的调参。从多角度比较时序交叉验证与传统K折交叉验证从交叉验证方法使用的前提看,时序数据不满足样本独立同分布原则,违背传统K折交叉验证的前提假设。从模型选择的最优超参数角度看,时序交叉验证倾向于选择超参数“简单”的模型,体现出更低的过拟合程度。从不同基学习器的比较看,两种交叉验证的差异在逻辑回归等简单模型上体现不明显,而在XGBoost等复杂模型上体现较为明显;复杂模型更易表现出过拟合,时序交叉验证能够带来更大提升。从合成单因子分层回测以及构建策略组合回测的结果看,时序交叉验证在获取收益方面具备较...