想让机器学习与商业结合，最重要的是什么？( 九 )

2019-07-22

\n \n

\n

大数据并不大

\n \n

近十年，大数据供应商卖力宣传，强调对大数据规模和功能的需求，掀起了一股大数据热潮。也因此， “大数据并不大”这一观点引发了更大的争议。然而，我们需要明确区分原始数据（包括对所有对当前问题无帮助的数据）和特征集（机器学习算法的输入矩阵）。将原始数据处理成特征集的过程称为数据处理，包含以下步骤：

\n \n

1. 丢弃无效/不完整/脏数据。根据我们的经验，此类数据可占所有数据的一半。

\n \n

2. 聚合一个或多个数据集，包括数据连接和组类聚合等操作。

\n \n

3. 特征选取/抽除。比如，除去唯一性标识等可能无关的特征，并应用其它降维技术，如主成分分析。

\n \n

4. 使用稀疏数据表示法或功能散列法，以减少存在许多零值数据集的内存占用。

\n \n

\n \n

推荐阅读

上一篇：腾讯出的全能文件管理App，干掉微信QQ一点不含糊！

下一篇：大一新生入学需要购买哪些电子产品呢？做好准备，到时才不会慌！