多因子系列之六:寻找财务数据中的alpha信息( 五 )
在计算的过程中,由于X与Y中有相同的指标,我们删除掉了一些冗余的指标。例如如果我们计算过了总负债/总资产这类因子,那么就不再计算总资产/总负债相关因子。由于指标的缺失原因,会导致一些因子覆盖率较低,在这里我们同样删除掉平均覆盖率低于40%的因子。最后,总共构造出了4680个因子。对于所有的因子,我们统一进行异常值处理,然后将其对所有风格因子以及行业因子做中性化,将缺失值填为0。
三、因子检验与筛选
下面两张图分别展示了因子的平均收益分布以及T统计量分布,其中有20%的因子纯因子年化收益超过1%。有35%的因子,约1600个因子的T统计量的绝对值是大于2的。也就是说,从传统实证方法的角度来看,这些因子在过去十年的样本中是能够提供显著的超额收益的。这显然存在一定数据挖掘的嫌疑。那么如何证明我们得到的因子并不是完全来源于数据挖掘或者是取样偏差(sampling variation),而是包含一定的信息呢?
推荐阅读
- |阴阳哲学探索系列之一百零八十四(以组织层级为例)
- 使命召唤手游|整个仙剑系列,修仙的角色一抓一大把,但真正成仙的又有哪些呢?
- 世界观|《真.女神转生V》系列回顾与测评:奇幻世界,现代视角,与魔为伴
- 皮卡丘|庆祝《宝可梦》系列25周年,官方推限量25尊「水晶皮卡丘」
- 大话西游2|大话西游2:这么全面的万金油神兽从鎏金宝鉴系列里可以说是”大哥“的存在了!
- |LOLM神龙和光明哨兵,哪个系列皮肤更受欢迎?玩家:主要看价格
- 开罗|《Let's Build a Zoo》No More Robots 系列新作,开罗向游戏上架steam
- |新作只排第四! 《银河战士》系列排名TOP10
- 炉石传说|炉石传说:迷你系列,1费新卡快攻德质变,胜率最高直逼最强卡组
- iqoo8|游戏表现“天花板”非它莫属!KPL选手同款的iQOO 8系列