敬请阅读末页的重要说明证券研究报告|金融工程专题报告利用XGBoost预测规模因子收益方向2019年01月10日因子模型系列之十二各代表因子第一类变化比较图资料来源:招商证券、Wind资讯高区分度特征变量重要性排序资料来源:招商证券、Wind资讯相关报告《因子筛选与投资组合构建》2018-10《各大类单因子有效性汇总比较分析》2018-04在本系列的上一篇报告中我们提到:因子模型是解释性模型,因子收益的方向需要外生变量和外部模型进行预测。本文就试图用XGBoost模型结合宏观特征变量与技术指标特征变量对规模类因子的收益方向进行预测。根据规模类因子自身特点出发,对因子的第二类变化进行预测,提取宏观特征变量指标,用整群抽样的方式划分训练集和测试集,调参并构建模型,最后在测试集中进行模型评估。XGBoost对比动量预测方法,其预测准确性有较为明显的提升。尽管在经济学解释上仍存在较大的争议,但是在实证研究和实践中,规模类因子的确不论在对超额收益的解释力上还是对超额收益的贡献上,相较其他类型的因子都有较大的优势。换而言之,它对组合收益的影响,要比其他因子显著很多。相比于其他类型的因子,规模类因子在第一类变化(因子暴露度排序的变化)上的程度是最低的。因而对规模类因子进行预测,当预测其第二类变化(投资者对该因子情绪的变化)。对于第二类变化的预测须从宏观数据入手更为合情合理。我们挑选众多宏观特征变量和技术指标特征变量,根据变量之间的相关系数水平进行适当筛选。用整群抽样的方式来划分训练集和测试集。将特征变量放入XGBoost模型进行训练,使用了一些常用的手段去防止模型出现过拟合,而后去预测规模类因子收益的方向。最后评估发现,XGBoost模型对规模类因子下一周的收益方向预测能有65.8%的逻辑预测准确率,较基准预测方法(动量预测方法)预测的准确性提升近20%。在特征变量的重要性排序上,排名前四的分别是:螺纹钢市场价、100大中城市:成交土地占(环比)、发电量当月同比、公共财政收入当月值。前四均为宏观特征变量,从实证数据说明,宏观变量在预测规模类因子收益方向上,还是有较强的区分力的。两个被解释变量(标签)滞后项区分能力最弱,动量预测在周频数据上乏善可陈。叶涛021-68407343yetao@cmschina.com.cnS1090514040002研究助理崔浩瀚cuihaohan@cmschina.com.cn金融工程敬请阅读末页的重要说明Page2正文目录前期报告提要...................................................