多因子系列之六：寻找财务数据中的alpha信息( 五 )_来源：留富兵法报告摘要随着大量的财务

在计算的过程中，由于X与Y中有相同的指标，我们删除掉了一些冗余的指标。例如如果我们计算过了总负债/总资产这类因子，那么就不再计算总资产/总负债相关因子。由于指标的缺失原因，会导致一些因子覆盖率较低，在这里我们同样删除掉平均覆盖率低于40%的因子。最后，总共构造出了4680个因子。对于所有的因子，我们统一进行异常值处理，然后将其对所有风格因子以及行业因子做中性化，将缺失值填为0。

三、因子检验与筛选

下面两张图分别展示了因子的平均收益分布以及T统计量分布，其中有20%的因子纯因子年化收益超过1%。有35%的因子，约1600个因子的T统计量的绝对值是大于2的。也就是说，从传统实证方法的角度来看，这些因子在过去十年的样本中是能够提供显著的超额收益的。这显然存在一定数据挖掘的嫌疑。那么如何证明我们得到的因子并不是完全来源于数据挖掘或者是取样偏差（sampling variation），而是包含一定的信息呢？