上一篇介绍了单因子检验是因子分析前重要的一个步骤,是构建因子库、建立因子模型的基础,这篇报告首先对常见估值因子进行初步的检验。
估值因子是一类具有特色的风格因子,本报告选取了PE,PB,PCF,PS,PEG五个常见的估值因子进行因子分析,测试区间是 2014 年 1 月 1 日~2017 年 8 月 1 日,测试数据是全市场股票的月数据,主要从有效性和稳定性两个角度分析因子。
通过此次报告可以初步得出以下结论:
1、 此次选择的五个估值类因子的行业分布存在一定相似性,在银行、钢铁行业的暴露度普遍偏低,在通信行业、医药生物行业的估值因子的暴露度较高。
2、 通过观察因子暴露度在不同市值区间的分布差异,估值类因子与市值有轻微的递减关系,说明因子暴露度与市值存在一定关联。
3、 IC 和 RANK-IC 两种计算因子暴露度与收益率相关系数的方式有差异,RANK-IC 的显著性水平较低( p 值较低),RANK-IC 的绝对值较大,在时间序列上波动性较大。
4、 PE 因子暴露度与收益率的负相关性的关系较明显,并且这种趋势持续时间较长,peg 因子显著的状态切换比例和同向比例均较大,说明大部分情况下 peg 因子的相关系数较显著,但是难以判断 peg 因子与收益率关系的方向。
5、 所选估值因子中 PE、PCF、PEG 的同向显著比例普遍比状态切换显著比例大,说明在这三个因子最近一年存在趋势性。
6、 所选估值因子的负相关显著比例比正相关显著比例高,在最近一年的 IC 和 RANK-IC 的 6 月移动平均值都小于零,并且在负半轴上的绝对值有增大的趋势,说明在最近一年估值因子暴露度与因子收益率的大部分时间可能存在负相关关系。
7、 PB、PEG 因子的 IC 分布直方图处于小于零的部分大于大于零的部分。
常见估值因子及其描述
表 1
因子在行业之间的平均暴露度存在差距,以 2017 年 8 月 1 日为例。 图 1 到 5 展示了因子暴露度在不同行业的分布差异 通过对比各个因子暴露度的行业分布差异,银行行业平均暴露度最小的因子有 PCF,PE,PB。各个因子在钢铁行业的平均暴露度均较小,在通信行业的平均暴露度都比较大。
图 1 展示了 PB 因子在食品饮料行业的平均暴露度最大,在钢铁、银行行业的平均暴露度最小。
图 2 展示了 PE 因子在通信行业的平均暴露度最大,在银行行业的平均暴露度最小
图 3 展示了 PEG 因子在一些综合性的股票中平均暴露度较大,在电气设备行业的平均暴露度最大,在钢铁行业的平均暴露度最小。
图 4 展示了 PS 因子在休闲服务行业的平均暴露度最大,在钢铁行业的平均暴露度最小。
图 5 展示了 PCF 因子在通信行业的平均暴露度最大,在银行行业的平均暴露度最小。
图 6 到图 10 展示了因子暴露度在不同市值区间的分布差异 因子暴露度在横截面和时间序列上均存在差异,即不同时间的同一个因子的暴露度存在差异,不同市值区间的因子暴露度也存在不同,此次报告中的 5 个因子都在某一时间段与市值有递减关系。
图 6 展示了 PB 因子在 2015 年的普遍暴露度较高,并且可以看出一般低市值股票具有较高的 PB 暴露度。
图 7 展示了 PCF 因子在 2015 年和 2016 年的暴露度较高,在 2014 年和 2017 年,一般低市值股票具有较高的 PCF 暴露度。
图 8 展示了 PE 因子在 2015 年和 2016 年的暴露度较高,在 2014 年和 2017 年的有明显的市值区分,与市值有递减的关系
图 9 展示了 PEG 因子在 2015 年和 2016 年的暴露度较高,在 2017 年与市值有递减的关系。
图 10 展示了 PS 因子在 2014 年暴露度较低,在 2014 年和 2015 年市值区间之间没有显著的差异,在 2016 年和 2017 年与市值有稍微的递减关系
因子暴露度的相互关系
图 11 和图 12 展示了因子暴露度的平均相关性
基于 2014 年 1 月 1 日到 2017 年 8 月 1 日 PB、PE、PCF、PS、PEG 的暴露度数据,计算得到各因子之间的平均相关性如图 11、图 12 所示。可以看出估值大类因子下的细分因子之间相关性都没有预期的高,其中相关性比较明显的是 PCF 和 PE,PCF 和 PS,PCF 和 PB 因子。
因子暴露度的自相关关系
图 13 到图 17 展示了因子暴露度的自相关系数
同时,我们通过计算各子类因子的自相关性发现:各因子的自相关性绝大多数都是稳定衰减的;图 15 展示了 PEG 因子的自相关性的衰减速率较快,在第一期到第七期自相关性急速下降;图 17 展示了 PS 因子的自相关性下降最缓慢,而且通过 spearman 计算出的自相关数值普遍高于 pearson。
** 四、因子有效性和稳定性的初步分析 **
IC: 股票的因子暴露度与下期股票收益率之间的 pearson 相关系数
RANK-IC: 股票的因子暴露度与下期股票收益率之间的 spearman 相关系数
IR: 对应相关系数( IC/RANK-IC )的均值与标准差的比值
其中 IC 和 RANK-IC 两种指标的计算逻辑存在以下不同:
IC 主要衡量因子和收益率之间的线性关系,因子暴露度需要是正态的。
RANK-IC 主要衡量分级定序之后因子和收益率之间的相关程度的统计量,因子暴露度不要求是正态分布的,即不对变量的分布做假设,当数据存在异常值的时候较适用,但是由于计算逻辑较复杂,耗费时间较长。
通过对比两类相关系数,一般来说,相关系数的绝对值越大,意味着因子预测预期收益率的能力越强,由于样本点的实际分布和正态分布相差较大,所以也计算了 spearman 秩相关系数,IC 衡量线性相关程度,RANK-IC 衡量顺序相关程度。
这篇报告的因子检验主要从稳定性和有效性两个角度进行诠释。
表 2 展示了因子 IC 和 RANK-IC 的统计量,包括因子 IC 均值,IC 标准差,NORMAL-IR,RANK-IC 均值,RANK-IC 标准差,RANK-IR。
使用 RANK-IC 或者 IC 计算因子暴露度和收益率的相关系数,只在数值上存在细微区别,RANK-IC 的平均值绝对值比 IC 的平均值绝对值大,RANK-IC 的标准差也比 IC 的标准差大。 PE 因子 IC 和 RANK-IC 均值的绝对值最大,但是其标准差也较大; PEG 因子 IC 和 RANK-IC 的标准差最小,但其 RANK-IC 的均值较小;说明没有一个因子在有效性和稳定性两个方面都可以占据优势。 表 2
图 18 到 27 展示了因子 IC/RANK-IC 的分布直方图
PB、PEG 这两个因子看出相关系数的分布大部分处于负半轴上。而对于 PE、PS、PCF 这三个因子,RANKIC 和 IC 的分布在正负区域上分布并不存在很大的区别,说明这三个因子稳定性较弱。
图 28 到图 42 展示了因子 IC/RANK-IC 时间序列图,其中移动平均是窗口大小为 6
图 28 和图 29 展示了 PB 因子在 2015 年到 2016 年之间的 IC 波动频繁,PB 因子的暴露度在市场不稳定的时候波动较大,图 29 展示了 PB 因子的 RANK-IC 在 2017 年大部分都小于 0,说明 PB 因子暴露度和收益率存在较明显的负相关趋势性。
图 31 和图 32 展示了 PCF 因子的移动平均在负半轴上的绝对值增大,PCF 因子近期暴露度和收益率存在负相关趋势性。
图 34 和图 35 展示了 PE 因子的 IC 和 RANK-IC 的数值上较大。
图 37 和图 38 展示了 PEG 因子的移动平均值在负半轴上的绝对值增大,近期 PEG 因子相关性存在较强的负向趋势。
图 40 和图 41 展示了 PS 因子的 IC 和 RANK-IC 的波动频繁,可能存在噪音。
综合图 30/33/36/39/42,在 PB、PE、PCF、PS、PEG 五个因子的大部分时间段,IC 和 RANKIC 没有明显的差异,当相关系数在数量上增大的时候,RANKIC 和 IC 的差异会扩大。
一般而言,市场风格不是一层不变的,而是轮动的,所以所求的 IC 或者 RANK_IC 的相关系数会存在符号上的切换,所以在选择因子的时候,一般是计算相关系数正负的比例,选择相关比例较高的一个方向作为因子在未来的预测方向。这里选择了正相关显著比例、负相关显著比例、同向显著比例和状态切换比例作为衡量因子方向的指标。
指标的相关定义如下: 显著:是指相关系数的显著性水平小于一定阈值的样本。 正相关显著比例:显著的正相关系数占样本的比例 负相关显著比例:显著的负相关系数占样本的比例 状态切换显著比例:前后两期中相关系数符号相反占样本的比例。 同向显著比例:前后两期中相关系数符号相同占样本的比例。
所以:假如同向显著比例占上风,则意味着该段时间内因子的风格延续性较强,可以使用动态权重来调整因子的权重;同理,如果状态切换比例占上风,对于因子的赋权应该使用静态权重。
以最近一年时间即 2016 年 8 月 1 日到 2017 年 8 月 1 日的因子数据为研究对象 图 43、44 展示了 PE,PEG,PCF,PB,PS 五个因子的 IC 显著的状态切换比例,同向显著比例,负相关比例,正相关比例。 可以看出 PE 因子的 IC 同向显著比例较高,并且 IC 负相关显著比例高,说明 PE 因子暴露度与收益率可能存在负相关关系,并且这种关系可能持续下去。
此次报告衡量因子是否显著的标准有两个条件
1、相关系数的正负显著比例至少有一项大于阈值 A,
2、相关系数的正负显著比例之和大于阈值 B,
此次报告中阈值 A = 0.35 ,阈值 B= 0.6
因子是否具有趋势性:
因子具有趋势性:同向显著比例大于显著状态切换比例
表 3 IC/RANK-IC 相关的趋势 /显著指标
图 45 展示了 PB 因子第四组分组收益累计最高,其他几组之间没有显著差异,并且这种差异是从 2016 年开始显现出来的,说明最近一年的暴露度和收益的相关关系可能出现反转。观察 PB 因子的 IC 时间序列图也可以看出 IC 在 2016 年开始转为正值。
图 46 展示了 PCF 可以看出在牛市第一组和第四组因子组合可以获得快速上涨的收益,而第三组表现最差。通过对比 IC 和 RANK-IC 的时间序列在 2015 年移动均值的绝对值有减小的趋势,说明暴露度和收益率的相关系数出现波动,也说明了 PCF 的稳定性减弱。
图 47 展示了 PE 因子的第一组和第三组累计收益较高,两者之间没有显著差异,这种差异从 2015 年开始显现出来,RANK-IC 时间序列的移动平均值从 2015 年之后大部分处于小于零的部分,说明第一、三组和其他几组的累计收益的差异有可能扩大。
图 48 展示了 PEG 的因子累计收益其他几组没有显著差异,第 4 组表现较差。
图 49 展示了 PS 因子第三组累计收益最低,并且这种差异从 2015 年开始; IC 和 RANK-IC 的移动平均值在 2015 年位于零值附近波动,说明因子暴露度和收益率之间没有固定的相关方向,PS 因子在牛市和股灾期间的稳定性较差。
综上所述 PB、PS、PE、PEG、PCF 因子暴露度与收益没有线性关系。
通过上面的分析可以得出以下结论:
1、 此次所选的五个因子与收益率在长期上都存在负相关关系
2、 在时间序列上,PEG 因子的暴露度相对其他因子较为稳定,在近一年表现出较强的趋势性
3、 PE 因子的负相关性比较显著,并且有一定的趋势性,通过观察 RANK-IC 的同向显著比例和负相关显著比例,PE 因子可能比其他因子更加有负向的趋势性,稳定性更好
4、 PB 因子的分布有明显的左偏,并且分布比较规范,但是稳定性表现一般。
5、 PCF、PS 因子近期的稳定性和有效性表现一般