数据分析师成长记(六):统计学5个基本概念,你怎能缺席?( 八 )
用于降维的最常见的统计技术是PCA , 它本质上创建了特征的向量表示 , 表明了它们对输出的重要性 , 即相关性 。 PCA可以用来进行上述两种降维方式的操作 。
04
过采样和欠采样
过采样和欠采样是用于分类问题的技术 。 例如 , 我们有1种分类的2000个样本 , 但第2种分类只有200个样本 。 这将抛开我们尝试和使用的许多机器学习技术来给数据建模并进行预测 。 那么 , 过采样和欠采样可以应对这种情况 。 请看下图:
在上面图中的左右两侧 , 蓝色分类比橙色分类有更多的样本 。 在这种情况下 , 我们有2个预处理选择 , 可以帮助机器学习模型进行训练 。
欠采样意味着我们将只从样本多的分类中选择一些数据 , 而尽量多的使用样本少的分类样本 。 这种选择应该是为了保持分类的概率分布 。 我们只是通过更少的抽样来让数据集更均衡 。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- gta三部曲|梦幻西游:129级五开分析师,研究抓鬼任务最优化投入,不浪费一分钱
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 传奇|璀璨复古传奇:大佬拿屠龙跪求新手换修罗?成长武器真的香
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- edg战队|RW“猝死团”被滔搏翻盘:以然还需成长,小鹏百里守约打破质疑!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做