数据分析师成长记(六):统计学5个基本概念,你怎能缺席?( 七 )

降维

降维这个术语可以很直观的理解 , 意思是降低一个数据集的维数 。 在数据科学中 , 这是特征变量的数量 。 请看下图:

上图中的立方体表示我们的数据集 , 它有3个维度 , 总共1000个点 。 以现在的计算能力 , 计算1000个点很容易 , 但如果更大的规模 , 就会遇到麻烦了 。 然而 , 仅仅从二维的角度来看我们的数据 , 比如从立方体一侧的角度 , 可以看到划分所有的颜色是很容易的 。 通过降维 , 我们将3D数据展现到2D平面上 , 这有效地把我们需要计算的点的数量减少到100个 , 大大节省了计算量 。

另一种方式是我们可以通过特征剪枝来减少维数 。 利用这种方法 , 我们删除任何所看到的特征对分析都不重要 。 例如 , 在研究数据集之后 , 我们可能会发现 , 在10个特征中 , 有7个特征与输出具有很高的相关性 , 而其它3个则具有非常低的相关性 。 那么 , 这3个低相关性的特征可能不值得计算 , 我们可能只是能在不影响输出的情况下将它们从分析中去掉 。

推荐阅读