数据分析师成长记(六):统计学5个基本概念,你怎能缺席?( 六 )

  • 正态分布 , 通常也称为高斯分布 , 具体是由它的平均值和标准偏差来定义的 。 平均值是在空间上来回变化位置进行分布的 , 而标准偏差控制着它的分布扩散范围 。 与其它的分布方式的主要区别在于 , 在所有方向上标准偏差是相同的 。 因此 , 通过高斯分布 , 我们知道数据集的平均值以及数据的扩散分布 , 即它在比较广的范围上扩展 , 还是主要围绕在少数几个值附近集中分布 。

  • 泊松分布与正态分布相似 , 但存在偏斜率 。 象正态分布一样 , 在偏斜度值较低的情况下 , 泊松分布在各个方向上具有相对均匀的扩散 。 但是 , 当偏斜度值非常大的时候 , 我们的数据在不同方向上的扩散将会是不同的 。 在一个方向上 , 数据的扩散程度非常高 , 而在另一个方向上 , 扩散的程度则非常低 。

  • 如果遇到一个高斯分布 , 那么我们知道有很多算法 , 在默认情况下高思分布将会被执行地很好 , 因此首先应该找到那些算法 。 如果是泊松分布 , 我们必须要特别谨慎 , 选择一个在空间扩展上对变化要有很好鲁棒性的算法 。

    03

    推荐阅读