多因子系列之六:寻找财务数据中的alpha信息(13)

该方法最容易被人质疑的问题就是有数据挖掘的嫌疑。在寻找了上千个因子之后,总可以找到一个不错的因子,那么这个因子可能仅仅是由于挖掘的因子数量多,凭借运气所找到的,而非真正的含有超额收益,其表现并不可持续。这一质疑也出现在了众多其他因子的寻找之中,尤其是业务逻辑较弱的技术类因子。事实上,几乎任何因子的寻找都离不开对数据的挖掘。本文的方法只是将这一问题凸显了出来。数据挖掘并不是产生伪因子的核心原因,原因是传统的单变量检验在面对多个假设检验时失效了,导致我们找到由运气产生的因子的概率变大。但是,只要我们使用合理的统计手段,能够最小化FWE发生的概率,那么我们就能够尽可能的排除数据挖掘或者是运气带来的影响,找到真正的alpha因子。

在考虑数据挖掘的影响下,本文从生成的4680个因子中,找到了364个仍然显著的财务因子。那这些财务因子是否是真正的alpha因子,其表现在未来会持续呢?其实我们也不能完全确定。统计学只能帮助我们降低犯第一类错误的概率,但是不能帮助我们确定因子影响股票收益的内在驱动因素。即使犯第一类错误的概率较低,但仍存在一定的可能性。因此我们需要确认因子的逻辑,通过主观的方法进一步的降低犯第一类错误的概率。另外,由于市场环境变化较快,过去好的因子未来表现不一定好,通过找到因子的逻辑,我们能够更加清晰的应对这一问题。

推荐阅读