如何掌握数据科学界的“黑色黄金”?( 九 )

这里有一个简短的摘要:

回归问题生成:Scikit-learning的数据集 。 make_regression函数可以创建任意数量的具有输入特征、输出目标和它们之间可控的信息耦合程度的随机回归问题 。 它还可以混合高斯噪声 。

分类问题生成:与上面的回归函数相似 , dataset.make_classification生成一个随机多类分类问题(数据集) , 它具有可控的分类以及附加噪声 。 如果需要 , 还可以随机翻转任何百分比的输出符号以创建更难的分类数据集 。

聚类问题生成:有很多函数可用于生成有趣的集群 。 最直接的方法是使用dataset.make_blobs , 它可以生成任意数量的具有可控距离参数的集群 。

各向异性团簇生成:通过使用矩阵乘法的简单转换 , 可以生成沿着特定轴对齐或各向异性分布的集群 。

同心环簇数据生成:对于测试基于密切关系的聚类算法或高斯混合模型 , 将聚类生成为特殊形状是很有用的 。 我们可以使用dataset.make_circles函数来实现这一点 。

推荐阅读