如何掌握数据科学界的“黑色黄金”?( 八 )

· 它可以是数字、二进制或分类(序数或非序数) 。

· 数据集的特征数量和长度应该是任意的 。

· 它最好是随机的 , 并且用户应该能够选择各种各样的统计分布来依附这些数据 , 例如精确地控制和调整基础随机过程 。

· 如果用于分类算法 , 那么类分离的程度应该可以调节学习问题的容易或困难程度 。

· 随机噪声可以以可控的方式插入 。

· 对于回归问题 , 可以使用复杂的、非线性的生成过程来获取数据 。

尽管在本文中 , 为了实现更好的ML算法 , 我们将讨论局限于合成数据 。 但是它在帮助处理真实数据集的安全性和隐私问题时(这些问题不能基于学习目的被使用或获取)可能具有深远的意义 。

用scikit-learning方法生成数据

Scikit-learning是一个很棒的Python库 , 用于经典的机器学习任务(例如 , 如果你不特别关心深度学习) 。 然而 , 虽然它的机器学习算法被广泛使用 , 但是它提供的优秀的合成数据生成功能却鲜为人知 。

推荐阅读