想让机器学习与商业结合,最重要的是什么?( 九 )
\n \n
\n
大数据并不大
\n \n近十年 , 大数据供应商卖力宣传 , 强调对大数据规模和功能的需求 , 掀起了一股大数据热潮 。 也因此 , “大数据并不大”这一观点引发了更大的争议 。 然而 , 我们需要明确区分原始数据(包括对所有对当前问题无帮助的数据)和特征集(机器学习算法的输入矩阵) 。 将原始数据处理成特征集的过程称为数据处理 , 包含以下步骤:
\n \n1. 丢弃无效/不完整/脏数据 。 根据我们的经验 , 此类数据可占所有数据的一半 。
\n \n2. 聚合一个或多个数据集 , 包括数据连接和组类聚合等操作 。
\n \n3. 特征选取/抽除 。 比如 , 除去唯一性标识等可能无关的特征 , 并应用其它降维技术 , 如主成分分析 。
\n \n4. 使用稀疏数据表示法或功能散列法 , 以减少存在许多零值数据集的内存占用 。
\n \n\n \n
推荐阅读
- Uzi|Knight或像UZI因商业合同被卡俱乐部,LOL官方对此都毫无办法
- 战争机器5|战争机器5,有改变也需要让玩家射击的爽快
- 超级机器人大战30|明日方舟:白嫖材料活动更新,玩家收益减少,鹰角策划又不当人?
- 国服|LOLM:60天内如何从小白打到国服王者?这快捷径方法值得学习
- 催眠学习|《催眠学习》PC版,一款教你如何恋爱的游戏,非绅骑步呦!
- 任天堂|免费“大作”会有吗?任天堂商业报告提到将改善Switch会员服务
- 虎牙|哈利波特手游:同流派该如何击败?虎牙小若沐展示细节,值得学习
- 梦幻西游|梦幻西游:一只须弥画魂的励志蜕变史,这才是值得学习人生态度!
- 超级机器人大战30|不怕被LCK网友喷!Ray发文力挺:希望EDG可以夺冠!祝他们有好运
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保