分享
光大证券_20180909_光大证券多因子系列报告之十五:创新基本面因子提纯净利数据中的选股信息.pdf
下载文档
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
光大 证券 _20180909_ 因子 系列 报告 十五 创新 基本面 提纯 净利 数据 中的 信息
敬请参阅最后一页特别声明-1-证券研究报告 2018 年 9 月 9 日 金融工程 创新基本面因子:提纯净利数据中的选股信息 多因子系列报告之十五 金融工程深度 2017 年来,以往效果卓越的市值因子、量价类因子等都出现了有效性下滑的情况,价值投资的呼声也越来越高。愈来愈多的投资经理开始关注基本面因子。然而过于简单直白的基本面因子其效果又差强人意。基于这样的现象与需求,我们开始研究并推出了创新基本面因子系列创新基本面因子系列报告报告。尝试通过一些更深入的研究,在保留直观逻辑意义的同时,更好地提取出蕴含在基本面数据中的有效预测信息。净利润数据富含预测信息净利润数据富含预测信息。基于净利润数据构造的不少常用因子都有不错的预测能力。但不同的构造方式下,因子预测能力对于因子值更新方式以及极值处理方式敏感程度不一。TTM 同比及 TTM 环比这些构造方式非常有必要做去极值处理。利用线性研究框架提纯净利润预测信息利用线性研究框架提纯净利润预测信息。通过测试我们发现有近 50 个不同财务数据可以通过线性研究框架的滚动回归来构造成拥有不错预测能力的净利润相关因子。而通过对一些财务数据进行多元回归或分步回归能进一步提升净利润相关因子的预测能力。LPNP 因子预测能力突出因子预测能力突出。通过将净利润同时对营业外收入与支付给职工以及为职工支付的现金进行滚动回归取残差的方式构造了线性纯化净利润(LPNP)因子。该因子预测能力突出,月度月度 ICIC 均值均值 3.37%3.37%,月度,月度 IRIR值值 0.870.87。基于该因子构造的多空组合在 2009 年至 2018 年 6 月期间年化年化收益收益 11.67%11.67%,夏普比率,夏普比率 3.083.08,最大回撤,最大回撤 2.95%2.95%。中中性化后性化后 LPNP 因子效果更强因子效果更强。将 LPNP 因子与现有的主流风格因子作相关性测试,其与市值、ROE、动量呈现明显正相关;而与 BP 估值、流动性呈现负相关。在经过横截面回归取残差的方式剔除上述因子对 LPNP因子的影响后,因子效果进一步强化,月度月度 IC 均值为均值为 4.28%,而,而月度月度IR 高达高达 1.27,中性化处理起到了信息提纯的作用。以中性化后 LPNP因子构建的多空组合,年化收益年化收益 14.15%,夏普比率高达,夏普比率高达 3.94,最大回,最大回撤仅撤仅 3.20%。风险提示:风险提示:测试结果均基于模型和历史数据,模型存在失效的风险。分析师 刘均伟 (执业证书编号:S0930517040001)021-22169151 联系人 胡骥聪 021-22169125 相关研究 因子测试框架 多因子系列报告之一 因子测试全集 多因子系列报告之二 多因子组合“光大 Alpha 1.0”多因子系列报告之三 别开生面:公司治理因子详解 多因子系列报告之四 见微知著:成交量占比高频因子解析 多因子系列报告之五 行为金融因子:噪音交易者行为偏差 多因子系列报告之六 基于 K 线最短路径构造的非流动性因子 多因子系列报告之七 高频因子:日内分时成交量蕴藏玄机 多因子系列报告之八 一致交易:挖掘集体行为背后的收益 多因子系列报告之九 因子正交与择时:基于分类模型的动 态权重配置 多因子系列报告之十 爬罗剔抉:一致预期因子分类与精选 多因子系列报告之十一 成长因子重构与优化:稳健加速为王 多因子系列报告之十二 组合优化算法探析及指数增强实证 多因子系列报告之十三 创新基本面因子:财务数据间线性关系 初窥 多因子系列报告之十四 2018-09-09 金融工程 敬请参阅最后一页特别声明-2-证券研究报告 目目 录录 1、净利润是信息含量极高的财务数据.5 1.1、常用的利用净利润数据构造的基本面因子.5 1.2、调仓频率对因子选股效果有一定影响.5 2、利用线性回归研究框架提纯净利润数据信息.6 2.1、多个基本面数据能对利润数据提纯作出贡献.7 2.2、处理财务数据共线性与多元回归下的提纯效果.9 2.3、分步回归的提纯效果.10 3、构建信息提纯后的 LPNP 因子.11 3.1、构建线性纯化净利润(LPNP)因子.11 3.2、LPNP 因子预测效果测试.12 3.3、LPNP 因子选股能力优秀.16 4、LPNP 因子相关性研究与中性化效果.20 4.1、LPNP 因子与不少主流因子有较显著相关性.20 4.2、剔除相关因子后预测能力再上层楼.20 5、风险提示.23 2018-09-09 金融工程 敬请参阅最后一页特别声明-3-证券研究报告 图图目录目录 图 1:按净利润相关因子 IC 序列聚类的树状图.9 图 2:各行业(中信一级)分步回归净利润因子计算缺失值占比及有值率.11 图 3:各行业(中信一级)多元回归净利润因子计算缺失值占比及有值率.12 图 4:LPNP 因子 IC 序列.13 图 5:LPNP 在各中信一级行业上预测能力.14 图 6:LPNP 因子分 5 组单调性优秀.15 图 7:LPNP 因子组合相对中证 500 基准表现.16 图 8:不同交易成本下 LPNP 因子组合净值表现.17 图 9:LPNP 因子沪深 300 内分组及多空表现.18 图 10:LPNP 因子沪深 300 内选股组合表现.18 图 11:LPNP 因子中证 500 内分组及多空表现.19 图 12:LPNP 因子中证 500 内选股组合表现.19 图 13:因子与其他大类因子历史 IC 值相关性检验.20 图 14:中性化后 LPNP 因子 IC 序列.21 图 15:中性化后 LPNP 因子分 5 组单调性.22 2018-09-09 金融工程 敬请参阅最后一页特别声明-4-证券研究报告 表表目录目录 表 1:常用净利润相关因子预测能力.5 表 2:净利润相关因子在日频更新下的预测能力.6 表 3:拥有提纯净利润数据预测能力的财务数据.7 表 4:聚类后多元线性回归下的因子预测能力并无提升.9 表 5:在多元回归下部分预测效果有较明显提升的净利润相关因子.10 表 6:在分步回归下部分预测效果有较明显提升的净利润相关因子.11 表 7:LPNP 因子在各中信一级行业下预测能力有所差异.13 表 8:因子分组回测框架.14 表 9:LPNP 因子等分 5 组下分组统计数据.15 表 10:多空组合分年度统计数据.15 表 11:因子选股策略回测框架.16 表 12:LPNP 选股组合分年度表现.17 表 13:不同交易成本下 LPNP 因子组合统计数据.17 表 14:LPNP 因子沪深 300 内选股组合分年度表现.18 表 15:LPNP 因子中证 500 内选股组合分年度表现.19 表 16:中性化前后 LPNP 因子的预测能力.21 表 17:净利润相关因子中性化后预测能力.21 表 17:中性化后 LPNP 因子等分 5 组下分组统计数据.22 表 18:中性化后的 LPNP 因子多空组合分年度统计数据.22 2018-09-09 金融工程 敬请参阅最后一页特别声明-5-证券研究报告 1、净利润是信息含量极高的财务数据净利润是信息含量极高的财务数据 在资产负债表、利润表以及现金流量表中有各种各样的财务数据。但不同财务数据所蕴含的对于公司股价的预示能力有所不同。在这些财务数据中,利润数据往往含有非常高的股价预示信息量。股价反映了投资者对该公司未来价值的预期。而一个公司产生的净利润越大,其价值亦越大。因此往往那些预期能有高额回报、高利润的公司其股价也更被看好。那么从直观上来说,虽然历史上的利润数据并不能与未来公司的利润划上等号,但依然有着较为显著的相关性;如何利用历史利润数据挖掘出能较好表征公司未来表现的信息便成为构造利润相关因子的一个关键所在。1.1、常用的利用常用的利用净净利润数据构造的利润数据构造的基本面基本面因子因子 由于净利润是投资者极为关注且信息含量很高的财务数据,因此有不少利用净利润数据构造的基本面因子,比如净利润增速等等。我们测算了一些常用的不同净利润增速构造方式下的因子效果,同时也比较了我们光大金工在前几篇报告中开发的净利润加速度因子、净利润稳健增速因子与净利润稳健加速度因子在预测能力上的差异。表表 1:常用净利润相关因子预测能力:常用净利润相关因子预测能力 因子因子名称名称 IC 均值均值 ICIR 净利润加速度 2.49%0.71 净利润 TTM 环比 3.59%0.64 净利润单季度环比 1.81%0.51 净利润稳健加速度 2.28%0.65 净利润稳健增速 1.78%0.25 净利润 TTM 同比 2.96%0.49 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 可以看出在常用的净利润相关因子中,净利润 TTM 环比因子、净利润加速度因子、净利润稳健加速度因子的预测能力较强,IC 均值皆超过 2%,同时 ICIR 皆逾 0.5。而以上这些因子有效性的测算皆是财务报告公告截止日更新因子值,月度调仓的方式计算的 IC 及 IR。而不同的因子值更新频率下会不会大幅影响净利润相关因子的预测能力呢?我么在下一节中做了相应测试。1.2、调仓频率对因子选股效果有一定影响调仓频率对因子选股效果有一定影响 如果我们不是在财务报告公告截止日才更新因子值,而是日度更新因子值。在同样月度调仓计算 IC 及 IR 的情况下,我们发现与预期相符,各个因子的预测能力都有所提升。但不同因子提升的幅度却大不相同,净利润 TTM环比、净利润 TTM 同比与净利润稳健增速因子在预测能力上有大幅提升。2018-09-09 金融工程 敬请参阅最后一页特别声明-6-证券研究报告 同时我们也观察到,使用同比及环比这样的因子构造方式很容易出现异常值的情况,因此对该种方式构造的因子非常有必要做去极值处理,不然会大大影响因子的预测能力。表表 2:净利润相关因子在日频更新下的预测能力净利润相关因子在日频更新下的预测能力 因子因子名称名称 去极值处理去极值处理 不做去极值处理不做去极值处理 IC 均值均值 ICIR IC 均值均值 ICIR 净利润加速度 3.17%0.76 3.17%0.76 净利润 TTM 环比 3.63%0.77 4.22%0.54 净利润单季度环比 1.97%0.59 0.80%0.11 净利润稳健加速度 2.34%0.71 2.38%0.70 净利润稳健增速 2.28%0.38 2.38%0.43 净利润 TTM 同比 3.98%0.77 1.43%0.16 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 综上可以看出在日频更新的情况下,因子预测能力更强,尤其是净利润加速度、净利润 TTM 环比与净利润 TTM 同比这几种构造方式,因子 ICIR均高达 0.75 以上。2、利用线性回归研究框架提纯利用线性回归研究框架提纯净净利润数据信息利润数据信息 在创新基本面因子系列的第一篇报告财务数据之间线性关系初窥中介绍了财务数据间线性关系研究框架。这里我们作简单回顾。通过构造不同财务数据间的滚动线性回归模型:=+#(1)或者,更常用的简化形式,仅考虑两个不同财务数据间的简单线性回归:=+#(2)在拟合好回归模型后,根据逻辑需要,找到可以反映或代理该逻辑的量化数据。需要注意的是:1.在该研究框架中,为了避免不同股票在回归时财务数据量级不同导致最终因子也受该量级的影响,所有的财务数据在滚动回归窗口里都先进行标准化操作。2.由于不少财务数据并不是所有公司都会公布,有些财务指标仅相应行业的公司才有。因此我们的研究框架中是有因子覆盖度检查的,即检查历史上有该财务数据的上市企业占全部上市公司数目的比例。在全市场的因子开发中,只有通过覆盖度检查该因子才会被我们采纳。2018-09-09 金融工程 敬请参阅最后一页特别声明-7-证券研究报告 2.1、多个基本面数据能对利润数据提纯作出贡献多个基本面数据能对利润数据提纯作出贡献 在该篇报告里我们主要研究净利润数据的预测信息。在尝试提纯净利润数据中的信息之前,我们首先给出以下逻辑假设:净利润数据(包括其它各类财务数据)中信息可以分为对未来股价有预测能力的信息(信号)与对未来股价没有预测能力的信息(噪声)。当我们的数据或指标中信号的占比越大,其作为因子的预测能力就越强。因此实际上我们可以认为净利润数据比大部分其它财务数据更具有预测能力的原因就在于其数据本身信噪比就比大部分其它财务数据要高。在此基础上如果我们希望构建预测能力更高的因子,实际上可以理解为我们将原本信噪比就较高的净利润数据处理成信噪比更高的指标。将信噪比处理成更高的指标往往有两种方式:1.第一种较为常见的,是通过对数据本身进行一定的操作,尝试直接找出信息中大概率有预测能力的信息部分。例如在第一章统计的同比、环比、稳健增速等因子的构造。2.另外一种则是通过找出信息中大概率是噪音项的信息部分,通过将其从原来数据中剔除的方式,增加操作后数据的信噪比。我们接下来利用线性回归研究框架来提纯净利润数据就是属于这一范畴。我们认为在净利润数据中有不少其它财务数据决定的部分其实属于噪音项,因此找出它们对于净利润数据的贡献后,将其剔除,来提升处理后的净利润数据的预测能力。将净利润时间序列作为 Y 值,将其它一些能影响到净利润数值的财务数据作为解释变量,通过滚动线性回归的方式,我们可以找出净利润数据中大概率能被解释变量以线性方式解释的那部分,那么回归后最近一期的残差就可以认为是剔除相关噪音后更纯化的信息。_=+#(3)这里需要注意的是,不少财务数据与净利润的关系更偏向于非线性的关系,那么这种噪音项我们是无法通过我们线性研究框架来处理的;我们只能找到大概率是与利润有线性关系的财务数据引入的噪音信息。通过暴力遍历的方式,我们一一测试了每个通过覆盖度测试的财务数据作为线性关系研究框架中解释变量的结果。从 IC 与 IR 的角度,有近 50 多个财务数据似乎可以用以提纯净利润数据中的预测能力。表表 3:拥有提纯净利润数据预测能力的财务数据拥有提纯净利润数据预测能力的财务数据 解释变量解释变量 IC 均值均值 ICIR 收到的税费返还 4.10%0.70 取得投资收益收到的现金 3.97%0.78 收到其他与经营活动有关的现金 3.90%0.79 处置固定资产、无形资产和其他长期资产收回的现金净额 3.90%0.70 营业外收入 3.89%0.81 非流动资产处置净损失 3.84%0.61 2018-09-09 金融工程 敬请参阅最后一页特别声明-8-证券研究报告 资产减值损失 3.82%0.70 投资活动现金流入小计 3.78%0.81 支付其他与经营活动有关的现金 3.74%0.77 经营活动产生的现金流量净额 3.72%0.77 营业外支出 3.67%0.73 财务费用 3.59%0.78 应收票据 3.57%0.80 投资净收益 3.51%0.80 购建固定资产、无形资产和其他长期资产支付的现金 3.48%0.77 其他应收款 3.47%0.81 投资活动现金流出小计 3.46%0.76 投资活动产生的现金流量净额 3.46%0.74 支付给职工以及为职工支付的现金 3.46%0.81 购买商品、接受劳务支付的现金 3.34%0.77 管理费用 3.30%0.75 预付款项 3.28%0.78 销售费用 3.26%0.73 长期待摊费用 3.25%0.76 在建工程 3.23%0.81 盈余公积金 3.22%0.83 经营活动现金流出小计 3.19%0.77 支付的各项税费 3.18%0.75 营业税金及附加 3.13%0.76 经营活动现金流入小计 3.13%0.77 非流动负债合计 3.06%0.77 存货 3.02%0.79 资本公积金 3.01%0.74 递延所得税资产 2.99%0.80 应收账款 2.98%0.80 无形资产 2.94%0.76 固定资产 2.92%0.79 长期股权投资 2.92%0.70 营业成本 2.90%0.79 少数股东权益 2.87%0.74 股东权益合计(不含少数股东权益)2.66%0.72 流动资产合计 2.65%0.71 股东权益合计(含少数股东权益)2.59%0.70 非流动资产合计 2.55%0.67 所得税 2.54%0.69 负债合计 2.51%0.70 负债及股东权益总计 2.48%0.70 未分配利润 2.41%0.66 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 但实际上,真正不同的有提纯效果的解释变量远远小于以上列表中的数据,因为上述解释变量之中有许多之间存在高共线性的情况,因此以上不少因子之间有着很高的相关性。2018-09-09 金融工程 敬请参阅最后一页特别声明-9-证券研究报告 2.2、处理财务数据共线性处理财务数据共线性与多元回归下的提纯效果与多元回归下的提纯效果 观察上述近 50 个净利润相关因子之间的相关系数矩阵,会发现大部分因子之间的 IC 相关系数高达 0.7 以上,因此单纯地把这些解释变量全部放在一起进行多元回归并不合适,因此我们首先通过聚类的方式挑选从 IC 序列角度来看大概率涵盖不同解释信息的解释变量。从聚类的树状图,我们挑选出 4 个从 IC 序列里体现出明显不同的解释变量:营业外收入(),非流动资产处置净损失(),取得投资收益收到的现金(),处置固定资产、无形资产和其它长期资产收回的现金净额()。_=+#(4)图图 1:按净利润相关因子按净利润相关因子 IC 序列聚类的树状图序列聚类的树状图 资料来源:光大证券研究所 以净利润为 Y 值,以营业外收入,非流动资产处置净损失,取得投资收益收到的现金,处置固定资产、无形资产和其它长期资产收回的现金净额这四个财务数据作为解释变量经行滚动线性回归并取末期残差的方式构建的因子表现并未出现提升,IC 均值 3.63%,ICIR 为 0.79。多元回归下的因子IC 与 IR 均弱于仅用营业外收入作简单线性回归得到的因子。表表 4:聚类后多元线性回归下的因子预测能力并无提升聚类后多元线性回归下的因子预测能力并无提升 解释变量解释变量 IC 均值均值 ICIR 营业外收入 3.89%0.81 非流动资产处置净损失 3.84%0.61 取得投资收益收到的现金 3.97%0.78 处置固定资产、无形资产和其他长期资产收回的现金净额 3.90%0.70 综合以上四项 3.63%0.79 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 我们认为造成以上结果几个可能的原因:一是不同解释变量下的净利润相关因子效果不一,比如以非流动资产处置净损失为解释变量的净利润相关2018-09-09 金融工程 敬请参阅最后一页特别声明-10-证券研究报告 因子的 IR 仅 0.61。如果把它列入多项解释变量中一起回归,可能会影响到最终因子的预测能力。二是单纯的从聚类的方式区分不同解释变量对净利润的影响方式实际上效果并不一定能直观反映到构造的因子上。所以我们接下来尝试从一些本身效果出众的净利润相关因子入手,比如IC 超过 3%,IR 超过 0.8 的那些净利润相关因子的解释变量。测试将它们组合后,放在一起进行多元回归得到的因子效果有没有提升。在小样本内进行排列组合后,我们发现将净利润在营业外收入,在建工程,支付给职工以及为职工支付的现金之间的解释变量组合上进行多元回归得到的净利润相关因子预测能力较高。综合比较 IC 均值与 ICIR,同时对营业外收入与支付给职工以及为职工支付的现金进行滚动回归取残差得到净利润相关因子预测能力最好,IC 均值 3.37%,ICIR 为 0.87。表表 5:在多元回归下部分预测效果有较明显提升的净利润相关因子在多元回归下部分预测效果有较明显提升的净利润相关因子 解释变量(多个)解释变量(多个)IC 均值均值 ICIR 营业外收入&支付给职工以及为职工支付的现金 3.37%0.87 营业外收入&在建工程 3.09%0.85 支付给职工以及为职工支付的现金&在建工程 2.81%0.85 营业外收入&支付给职工以及为职工支付的现金&在建工程 2.77%0.87 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 2.3、分步回归的提纯效果分步回归的提纯效果 除了通过多元回归来达到剔除多个解释变量在净利润数据中的信息,我们还可以通过分步回归的方式来达到这个目的。即:1.先将净利润在一个解释变量上滚动回归,记录下末期的残差形成残差矩阵。2.之后将上一步得到的残差矩阵中的数据在下一个解释变量上滚动回归,记录下末期的残差形成残差矩阵。3.若还有下一个解释变量,则重复第 2 步;若没有其它的解释变量,就将残差矩阵作为最终的因子矩阵。我们仅尝试了将营业外收入,盈余公积金,投资活动现金流入小计,支付给职工以及为职工支付的现金,在建工程这 5 个解释变量作为首选解释变量。从测试的结果而言,仅分两步回归的情况下,仅有少许因子的预测能力得到提高,而且能提高的幅度也并非特别显著。因此我们认为分更多步回归的必要性较低。其中,预测能力提升最为明显的一些因子所用解释变量多为营业外收入、在建工程与支付给职工以及为职工支付的现金等,与多元回归时的解释变量大多重合,但效果上有所差异。ICIR 最高的净利润相关因子为先回归掉营业外收入,再回归在建工程的因子,ICIR达0.91,IC均值2.98%。而同样是用营业外收入与支付给职工以及为职工支付的现金作为解释变量,多元回归与分步回归在 ICIR 上差别很小,但在 IC 均值上多元回归出的因子更胜一筹。2018-09-09 金融工程 敬请参阅最后一页特别声明-11-证券研究报告 表表 6:在分步回归下在分步回归下部分预测效果有较明显提升的净利润相关因子部分预测效果有较明显提升的净利润相关因子 主解释变量主解释变量 副解释变量副解释变量 IC 均值均值 ICIR 营业外收入 在建工程 2.98%0.91 营业外收入 其他应收款 2.86%0.87 营业外收入 支付给职工以及为职工支付的现金 2.87%0.87 支付给职工以及为职工支付的现金 营业外收入 2.84%0.87 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 通过以上多元回归与分步回归的测试,我们发现能较为有效通过线性方法提纯净利润预测能力的财务数据为营业外收入、人力成本与在建工程。这三类数据都是本身波动会比较大而同时又能直接影响到净利润的大小。而净利润中这些受营业外收入、人力成本等解释的部分实际上是没有外推性的,这一部分并不能真正展现公司未来的成长能力。因此通过回归掉这些净利润数据中没有预测能力的噪音项,得以使因子的预测能力有所提升。3、构建构建信息提纯后信息提纯后的的 LPNP 因子因子 从第二章的分析与测试,有两个净利润相关因子表现格外突出,分别是对营业外收入与支付给职工以及为职工支付的现金进行多元回归取残差(后简称多元回归净利润因子),和对营业外收入与在建工程分步回归取残差(后简称分步回归净利润因子)。在本章中,我们将更深入探讨这两种因子构造的优劣,并确定最终的线性纯化净利润因子。3.1、构建构建线性线性纯化净利润纯化净利润(LPNP)因子)因子 虽然从 IC 均值与 ICIR 上看多元回归净利润因子与分步回归净利润因子相差无几。但两者在覆盖度上却有着较大差异,由于在建工程的数据相对其它大部分财务数据缺失值更多,因此在不作相应数据处理的情况下有很多上市公司无法计算出分步回归净利润因子值。图图 2:各行业(中信一级)分步回归净利润因子计算缺失值占比及有值率:各行业(中信一级)分步回归净利润因子计算缺失值占比及有值率 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 0%10%20%30%40%50%60%70%80%90%100%石油石化煤炭有色金属电力及公用事业钢铁基础化工建筑建材轻工制造机械电力设备国防军工汽车商贸零售餐饮旅游家电纺织服装医药食品饮料农林牧渔银行非银行金融房地产交通运输电子元器件通信计算机传媒综合有值缺失2018-09-09 金融工程 敬请参阅最后一页特别声明-12-证券研究报告 从上图可看出分步回归净利润因子值缺失占比较高,整体缺失占比近30%,尤其在银行、非银金融、房地产与计算机等行业,缺失率极高。故即使该因子 ICIR 超过 0.9,其适用性也因覆盖度问题大打折扣。采取某些缺失值填充处理(比如填零或近期中位数等)也许能在一定程度上克服覆盖度问题,但在本报告中不再细致讨论这些问题。图图 3:各行业(中信一级)多元回归净利润因子计算缺失值占比及有值率:各行业(中信一级)多元回归净利润因子计算缺失值占比及有值率 资料来源:光大证券研究所,Wind 注:计算区间为 2009 年 1 月至 2018 年 6 月 而多元回归净利润因子的覆盖度则远远好于分步回归净利润因子,整体缺失率在 6%左右,且没有任何一个行业有较大的因子值缺失率。因此,我们认为多元回归净利润因子更好,并确定其为最终的线性纯化净利润(线性纯化净利润(LPNP)因子因子。3.2、LPNP 因子预测效果测试因子预测效果测试 在测试因子有效性及构建多空组合之前,我们会先对因子数据进行一定程度的清洗。对于因子数据的清洗和有效性检验在此前的多因子系列报告中已有详细阐述,这里仅作简单回顾。绝对中位数法去极值绝对中位数法去极值:在因子测试阶段,由于因子本身的分步是否为正态分步无法确定,我们采用稳健的 MAD(绝对中位数法)去除极值更加合适。截面截面标准化处理标准化处理:通过横截面 z-score 方法,以每个时间截面 t 上的所有股票的为样本,分别计算其均值和标准差得到如下所示 stand(factor)。此标准化方式属于因子的线性变换,并不会改变原始因子的分步特征。stand()=()#(5)有效性及预测能力检验有效性及预测能力检验:我们计算行业中性与市值中性处理后的 Rank IC(因子值与股票次月收益率的秩相关系数),通过以下几个与 IC 值相关的指标来判断因子的有效性和预测能力:IC 值的均值、IC 值的标准差、IC 大于 0 的比例、IC 绝对值大于 0.02 的比例、ICIR。0%10%20%30%40%50%60%70%80%90%100%石油石化煤炭有色金属电力及公用事业钢铁基础化工建筑建材轻工制造机械电力设备国防军工汽车商贸零售餐饮旅游家电纺织服装医药食品饮料农林牧渔银行非银行金融房地产交通运输电子元器件通信计算机传媒综合有值缺失2018-09-09 金融工程 敬请参阅最后一页特别声明-13-证券研究报告 LPNP 因子的 IC 均值为 3.37%,IC 标准差为 3.87%,IR 值为 0.87。单从该因子的月度 IC 均值来看,预测效果较为突出,其 IC 标准差也相对较小,接近0.9的ICIR的数值显示因子预测能力也极为稳定。IC0的比例接近80%,IC0.02 的比例也有三分之二。图图 4:LPNP 因子因子 IC 序列序列 资料来源:光大证券研究所,Wind LPNP 因子在不同行业内的预测能力差异较大,我们按中信一级行业统计了各行业下的因子预测能力,所有行业下该因子的 IC 均值皆为正向。其中,钢铁、煤炭、建材等周期板块行业以及食品饮料、汽车、家电等消费板块行业内因子预测能力较佳;而在银行、非银、房地产等金融板块行业下预测能力偏弱。表表 7:LPNP 因子在各中信一级行业下预测能力有所差异因子在各中信一级行业下预测能力有所差异 一级行业一级行业 IC IR 有有因子值公司数因子值公司数 缺失值占比缺失值占比 石油石化石油石化 1.37%0.06 45 2.17%煤炭煤炭 4.64%0.22 37 0.00%有色金属有色金属 4.34%0.28 97 6.73%电力及公用事业电力及公用事业 3.14%0.22 145 4.61%钢铁钢铁 5.64%0.27 51 1.92%基础化工基础化工 4.17%0.38 260 9.72%建筑建筑 3.09%0.18 108 10.00%建材建材 4.34%0.26 86 3.37%轻工制造轻工制造 4.52%0.27 94 8.74%机械机械 3.65%0.34 319 5.62%电力设备电力设备 3.24%0.26 145 5.23%国防军工国防军工 1.63%0.08 48 5.88%汽车汽车 4.54%0.37 159 5.92%商贸零售商贸零售 1.13%0.10 95 1.04%餐饮旅游餐饮旅游 1.67%0.08 32 5.88%家电家电 4.34%0.23 72 2.70%-0.05-0.03-0.010.010.030.050.070.090.110.130.15Jan-09Jan-10Jan-11Jan-12Jan-13Jan-14Jan-15Jan-16Jan-17Jan-182018-09-09 金融工程 敬请参阅最后一页特别声明-14-证券研究报告 纺织服装纺织服装 2.89%0.22 80 8.05%医药医药 3.00%0.29 250 9.42%食品饮料食品饮料 5.03%0.39 91 4.21%农林牧渔农林牧渔 4.20%0.28 90 1.10%银行银行 2.29%0.07 25 0.00%非银行金融非银行金融 1.20%0.05 50 1.96%房地产房地产 1.09%0.11 145 3.97%交通运输交通运输 2.71%0.20 100 3.85%电子元器件电子元器件 4.41%0.39 193 7.21%通信通信 3.50%0.22 107 10.83%计算机计算机 2.96%0.20 176 5.38%传媒传媒 1.45%0.07 118 9.23%综合综合 0.75%0.03 35 7.89%资料来源:光大证券研究所,Wind 图图 5:LPNP 在各中信一级行业上预测能力在各中信一级行业上预测能力 资料来源:光大证券研究所,Wind 除了有效性指标,因子的单调性和稳定性也是衡量因子选股效果的重要指标。我们建立如下表的分组回测框架,从分组选股效果角度来看因子的单调性,若单调性良好,则说明用该因子选股长期的效果具备较高的稳定性的。下表为因子分组回测阶段的框架说明。表表 8:因子分组回测框架:因子分组回测框架 因子分组回测框架因子分组回测框架 时间区间时间区间 2009 年 2 月 1 日至 2018 年 6 月 30 日 股票池股票池 全部 A 股(剔除选股日 ST/PT 股票;剔除上市不满一年的股票;剔除选股日由于停牌等因素无法买入的股票)调仓频率调仓频率 月度调仓 分组分组调仓方式调仓方式 每月最后一个交易日收盘后,根据本月所有未被剔除的股票数据计算因子值,根据因子值从小到大排序将股票等分为 5(或 10)组,分别计算每组股票的历史回测收益及多空组合收益。交易费率交易费率 因子测试阶段暂不考虑交易费用 资料来源:光大证券研究所 0.000.050.100.150.200.250.300.350.400.450.00%1.00%2.00%3.00%4.00%5.00%6.00%钢铁食品饮料煤炭汽车轻工制造电子元器件建材有色金属家电农林牧渔基础化工机械通信电力设备电力及公用事业建筑医药计算机纺织服装交通运输银行餐饮旅游国防军工传媒石油石化非银行金融商贸零售房地产综合ICIR(右轴)2018-09-09 金融工程 敬请参阅最后一页特别声明-15-证券研究报告 在等分5组的情况下,分组单调性十分优秀,因子越大的组合收益越大,区分程度也很显著。以第五组对冲第一组的方式构建多空组合,年化收益年化收益11.67%,年化波动仅,年化波动仅 3.60%,最大回,最大回撤撤 2.95%,夏普比率高达,夏普比率高达 3.08。表表 9:LPNP 因子等分因子等分 5 组下分组统计数据组下分组统计数据 第一组第一组 第二组第二组 第三组第三组 第四组第四组 第五组第五组 多空组合多空组合 年化收益年化收益 9.28%12.68%15.20%18.26%22.05%11.67%累计收益累计收益 1.24 1.96 2.62 3.60 5.12 1.73 年化波动率年化波动率 30.26%30.22%30.35%30.24%30.40%3.60%夏普比率夏普比率 0.45 0.55 0.62 0.71 0.81 3.08 最大回撤最大回撤 60.62%57.79%54.09%53.50%53.96%2.95%资料来源:光大证券研究所,Wind 图图 6:LPNP 因子分因子分 5 组单调性优秀组单调性优秀 资料来源:光大证券研究所,Wind 对于多空组合,通过分年度统计的方式,可以看出组合在各个年份都有非常稳定的表现,仅 2016 年有相对较大回撤,但也未超过 3%。夏普比率在2014 年与 2016 年稍低,其它年份组合夏普比皆在 2.5 以上。最近 2 年组合表现极为优秀,2017 年组合夏普比逾 5,回撤仅 1%出头;2018 年组合夏普比也在 3 以上,波动不到 3%。表表 10:多空组合分年度统计数据多空组合分年度统计数据 年份年份 年化收益率年化收益率 年化波动率年化波动率 夏普比率夏普比率 最大回撤最大回撤 2009 12.06%4.52%2.66 2.09%2010 11.03%3.96%2.79 1.55%2011 8.79%3.30%2.67 1.53%2012 13.43%3.84%3.50 1.94%2013 13.30%3.29%4.04 1.35%2014 4.33%2.65%1.64 2.08%2015 13.21%4.04%3.27 1.82%2016 4.41%2.91%1.52 2.95%0.81.31.82.32.83.30.02.04.06.08.010.012.0Feb-09Feb-10Feb-11Feb-12Feb-13Feb-14Feb-15Feb-16Feb-17Feb-18Group_1Group_2Group_3Group_4Group_5long_short(右轴)2018-09-09 金融工程 敬请参阅最后一页特别声明-16-证券研究报告 2017 15.53%3.05%5.09 1.17%2018 9.14%2.90%3.16 1.35%全样本全样本 11.67%3.60%3.08 2.95%资料来源:光大证券研究所,Wind 3.3、LPNP 因子因子选股能力优秀选股能力优秀 通过对因子的有效性与稳定性检验,可以观察到 LPNP 因子存在正的因子收益且与股票未来收益存在较强的正相关性,下面将以此为依据建立选股回测体系。后文的策略回测分析均基于此框架。表表 11:因子选股策略回测框架:因子选股策略回测框架 因子选股回测框架因子选股回测框架 回测时间区间回测时间区间 2009 年 2 月 1 日至 2018 年 6 月 30 日 回测股票池回测股票池 全部 A 股或相应宽基指数成分股(剔除选股日 ST/PT 股票;剔除上市不满一年的股票;剔除选股日由于停牌等因素无法买入的股票)配置股票数量配置股票数量 100 只或 50 只 调仓频率调仓频率 月度调仓 调仓方式调仓方式 每月最后一个交易日收盘后,根据本月所有未被剔除的股票数据计算因子值,选择因子值最大的 100 只或 50 只股票等权配置 交易费率交易费率 双边 0.6%资料来源:光大证券研究所 通过挑选 LPNP 因子值最大的 100 只股票构建的选股组合,在 2009 年至 2018 年间,年化收益 22.4%,年化波动率 30.6%,夏普比率 0.82,最大回撤 54.3%。相对中证 500 指数年化收益 12.4%,相对波动率 6.3%,夏普比率 1.90,相对最大回撤 9.8%。从分年度的数据来看,LPNP 因子组合在大部分年

此文档下载收益归作者所有

下载文档
收起
展开