数据分析师成长记(六):统计学5个基本概念,你怎能缺席?( 七 )
降维
降维这个术语可以很直观的理解 , 意思是降低一个数据集的维数 。 在数据科学中 , 这是特征变量的数量 。 请看下图:
上图中的立方体表示我们的数据集 , 它有3个维度 , 总共1000个点 。 以现在的计算能力 , 计算1000个点很容易 , 但如果更大的规模 , 就会遇到麻烦了 。 然而 , 仅仅从二维的角度来看我们的数据 , 比如从立方体一侧的角度 , 可以看到划分所有的颜色是很容易的 。 通过降维 , 我们将3D数据展现到2D平面上 , 这有效地把我们需要计算的点的数量减少到100个 , 大大节省了计算量 。
另一种方式是我们可以通过特征剪枝来减少维数 。 利用这种方法 , 我们删除任何所看到的特征对分析都不重要 。 例如 , 在研究数据集之后 , 我们可能会发现 , 在10个特征中 , 有7个特征与输出具有很高的相关性 , 而其它3个则具有非常低的相关性 。 那么 , 这3个低相关性的特征可能不值得计算 , 我们可能只是能在不影响输出的情况下将它们从分析中去掉 。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- gta三部曲|梦幻西游:129级五开分析师,研究抓鬼任务最优化投入,不浪费一分钱
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 传奇|璀璨复古传奇:大佬拿屠龙跪求新手换修罗?成长武器真的香
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!
- edg战队|RW“猝死团”被滔搏翻盘:以然还需成长,小鹏百里守约打破质疑!
- 灵饰|梦幻西游:109级法系前排灵饰选择方法,用数据告诉你怎么做