大数据时代的机器学习和传统机器学习有什么不同?
大数据是当前一个热点问题 , 这里说的“大数据”词代表的是数据多、不够精确、数据混杂、自然产生 。 大数据给机器学习带来的问题不仅是因为数据量大而使计算产生困难 , 还因为更大的困难和挑战是数据在不同的服务器上获取的 , 这些分布在不同服务器上的数据之间存在某些联系 , 但是基本上不能满足同分布的假设 , 而我们也不可能把所有数据集中起来进行处理和学习 。 传统的机器学习理论和算法 , 要求数据是独立同分布的 , 当这个条件不能满足时 , 学习模型和学习算法就发挥不了作用 。
大数据除了给机器学习带来计算上的困难和挑战外 , 也带来了新的机遇 。 第一 , 在某些应用条件下 , 高维空间中的局部数据变得稠密了 。 在大数据时代 , 当样本数量很大的时候 , 在样本空间的某些区域会出现稠密现象 , 这些稠密数据给分类器设计提供了丰富的信息 。 因此 , 在这些局部稠密区域 , 分类器的性能有可能接近理论上的极限性能 。 第二 , 大数据使得样本空间原来“空旷”的区域出现了样本 , 原来“稀疏”的区域变得不再稀疏 , 这在很大程度上为提高分类器性能提供了数据基础 。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 李儒|三国杀:为什么叫李儒时代的骄傲,他到底有什么好骄傲的?厉害吗
- 梦幻西游|梦幻西游:诗情画意进入净台时代,郭无情买爆总17段野兽鞋
- 帝国时代4|老外做的《帝国时代4》,究竟能有中国味吗?
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- 地下城与勇士|DNF:“全民云上”时代到来,一个过气小副本,究竟有何魅力?
- steam|目前Steam上什么游戏比较火?《帝国时代4》屈居第二
- 超级机器人大战30|明日方舟:白嫖材料活动更新,玩家收益减少,鹰角策划又不当人?
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?