想让机器学习与商业结合,最重要的是什么?( 九 )

\n \n

\n

大数据并不大

\n \n

近十年 , 大数据供应商卖力宣传 , 强调对大数据规模和功能的需求 , 掀起了一股大数据热潮 。 也因此 , “大数据并不大”这一观点引发了更大的争议 。 然而 , 我们需要明确区分原始数据(包括对所有对当前问题无帮助的数据)和特征集(机器学习算法的输入矩阵) 。 将原始数据处理成特征集的过程称为数据处理 , 包含以下步骤:

\n \n

1. 丢弃无效/不完整/脏数据 。 根据我们的经验 , 此类数据可占所有数据的一半 。

\n \n

2. 聚合一个或多个数据集 , 包括数据连接和组类聚合等操作 。

\n \n

3. 特征选取/抽除 。 比如 , 除去唯一性标识等可能无关的特征 , 并应用其它降维技术 , 如主成分分析 。

\n \n

4. 使用稀疏数据表示法或功能散列法 , 以减少存在许多零值数据集的内存占用 。

\n \n

\n \n

推荐阅读