数据分析师成长记(六):统计学5个基本概念,你怎能缺席?( 八 )

用于降维的最常见的统计技术是PCA , 它本质上创建了特征的向量表示 , 表明了它们对输出的重要性 , 即相关性 。 PCA可以用来进行上述两种降维方式的操作 。

04

过采样和欠采样

过采样和欠采样是用于分类问题的技术 。 例如 , 我们有1种分类的2000个样本 , 但第2种分类只有200个样本 。 这将抛开我们尝试和使用的许多机器学习技术来给数据建模并进行预测 。 那么 , 过采样和欠采样可以应对这种情况 。 请看下图:

在上面图中的左右两侧 , 蓝色分类比橙色分类有更多的样本 。 在这种情况下 , 我们有2个预处理选择 , 可以帮助机器学习模型进行训练 。

欠采样意味着我们将只从样本多的分类中选择一些数据 , 而尽量多的使用样本少的分类样本 。 这种选择应该是为了保持分类的概率分布 。 我们只是通过更少的抽样来让数据集更均衡 。

推荐阅读