敬请阅读末页的重要说明证券研究报告|金融工程专题报告利用LSTM算法估计基金因子暴露度2019年06月21日因子模型系列之十三基金拼接处跳点示意图资料来源:招商证券、Wind资讯股票型基金预测结果比较图资料来源:招商证券、Wind资讯相关报告《利用XGBoost预测规模因子收益方向》2019-01《因子筛选与投资组合构建》2018-10见贤思齐焉。当我们在研究为什么有些基金表现优异的时候,我们总想知道这些目标基金到底在哪些因子上有所暴露,对目标基金因子暴露的研究有利于投资者构建自己的投资组合。传统方法是根据公募基金的定期报告中的持仓数据来计算基金在某些因子上的暴露度,但是由于定期报告发布时间存在较长滞后,这种传统方法在实际使用中也存在较长时滞。我们尝试使用基金净值序列和因子收益序列来反推基金在某因子上的暴露度走势。使用LSTM算法进行计算,经过一系列测试,取得了一些初步成果。对于基金在各因子上的暴露度迁移的研究,有利于我们对目标基金进行研究。不管是对基金进行因子业绩归因还是波动率拆解,都需要我们对基金在各因子暴露度有所了解。证监会要求基金公司发布的定期报告的时间与报告期期末截点存在较长的时滞,而且定期报告存在公布频率低、重仓股代表性较弱的问题。因而使用定期报告中的持仓明细来计算基金因子暴露的方法存在一些局限性,我们尝试使用LSTM算法,根据基金的净值数据和因子的收益数据来反推基金在某个因子上的暴露。由于LSTM是从循环神经网络(RNN)算法发展而来的,在时间序列的处理上存在优势,同时,又克服了传统RNN难以训练的难题,因而成为我们反算基金因子暴露的首选算法。我们根据直观逻辑选择了相关系数、回归系数等特征变量,搭建神经网络模型。根据训练结果对几个必要的超参数进行调整。在测试集上进行最后评估。以规模类因子为例,在测试集上的MAE为0.109。预测结果在绝对值对应和暴露度变化的敏感度上,较之线性回归都有较大的改善。最后我们讨论了之前使用过的“模拟基金法”,该方法效仿人工智能领域使用人为产生的样本弥补样本量过少缺陷的做法。我们让程序模拟基金经理的调仓行为,来产生众多“假基金”扩充训练集。但是在此方法在测试集(真实基金集合)中进行评估时,泛化能力并不理想。我们对此进行了一些思考。叶涛021-68407343yetao@cmschina.com.cnS1090514040002研究助理崔浩瀚cuihaohan@cmschina.com.cn金融工程敬请阅读末页的重要说明Page2正文目录基金的因子暴露和传...