数据分析师成长记(六):统计学5个基本概念,你怎能缺席?( 九 )

过采样意味着我们将要创建少数分类的副本 , 以便具有与多数分类相同的样本数量 。 副本将被制作成保持少数分类的分布 。 我们只是在没有获得更多数据的情况下让数据集更加均衡 。

05

贝叶斯统计

完全理解为什么在我们使用贝叶斯统计的时候 , 要求首先理解频率统计失败的地方 。 大多数人在听到“概率”这个词的时候 , 频率统计是首先想到的统计类型 。 它涉及应用一些数学理论来分析事件发生的概率 , 明确地说 , 我们唯一计算的数据是先验数据(prior data) 。

假设我给了你一个骰子 , 问你掷出6点的几率是多少 , 大多数人都会说是六分之一 。

但是 , 如果有人给你个特定的骰子总能掷出6个点呢?因为频率分析仅仅考虑之前的数据 , 而给你作弊的骰子的因素并没有被考虑进去 。

贝叶斯统计确实考虑了这一点 , 我们可以通过贝叶斯法则来进行说明:

推荐阅读