谨请参阅尾页重要声明及华泰证券股票和行业评级标准1证券研究报告金工研究/深度研究2019年08月07日林晓明执业证书编号:S0570516010001研究员0755-82080134linxiaoming@htsc.com陈烨执业证书编号:S0570518080004研究员010-56793942chenye@htsc.com李子钰0755-23987436联系人liziyu@htsc.com何康021-28972039联系人hekang@htsc.com1《金工:养老目标基金的中国市场开发流程》2019.072《金工:如何有效判断真正的周期拐点?》2019.073《金工:博观约取:价值和成长SmartBeta》2019.07再探基于遗传规划的选股因子挖掘华泰人工智能系列之二十三本文对遗传规划提出了三个改进方向,进一步提升其因子挖掘能力本文是对华泰金工前期报告《基于遗传规划的选股因子挖掘》(2019.6)的补充和改进,目的是进一步提升遗传规划挖掘选股因子的能力。本文提出并测试了3个改进方向:(1)新的适应度指标——因子互信息和多头超额收益;(2)非线性因子的使用方法;(3)交叉验证控制过拟合。测试中展示了20多个挖掘出的选股因子供投资者参考。通过方法论的介绍,本文旨在说明遗传规划或许能挖掘出大量因子(尤其是非线性因子),这对于能够利用非线性因子的机器学习选股模型来说具有重要意义。改进方向1:新的适应度指标——因子互信息和多头超额收益互信息可以捕捉因子和收益间的非线性关系,在遗传规划中使用互信息作为适应度指标,可以挖掘出多个互信息较高的因子。在分层测试中,该类因子与收益的关系大多呈现出“中间分层收益高,两端分层收益低”的特性,且分层规律稳定,这种规律能被基于机器学习的多因子选股模型有效利用。另外,部分投资者可能希望以多头超额收益来评价因子,本文也将多头超额收益加入到适应度指标中,挖掘出了数个多头超额收益较高的因子。改进方向2:非线性因子的使用方法对于非线性因子的使用,一般有两大类方法,第一类方法是在因子合成时直接使用机器学习模型(如XGBoost、神经网络等)拟合因子与收益率间的关系,该类方法在本系列前期报告中有过大量介绍。第二类方法是对单个因子做非线性变换,重构因子与收益之间的关系,最终得到线性因子。第二类方法中有两个具体方法:三次方回归残差法和多项式拟合法。两个方法各有优劣,在本文的测试中,三次方回归残差法较为简单,但转换效果较差;多项式拟合法转换效果较好,但需要逐个对因子拟合非线性关系,拟合结果对不同因子不能通用。改进方向3:交叉验证控制过拟合为了控制过拟合的风险,我们在gplear...