如何掌握数据科学界的“黑色黄金”?( 十 )

当然 , 我们也可以向数据中加入一些噪声来检验聚类算法的鲁棒性 。

月形集群数据生成:我们也可以用datasets.make_moons函数生成带有可控噪声的月型集群数据来测试算法 。

用任意符号表达式生成数据

虽然前面提到的函数非常好上手 , 但是用户无法轻松控制数据生成的底层机制 , 并且回归输出不是输入的确定函数——确实是随机输出 。 虽然这对于许多问题可能就足够了 , 但是通常需要可控方法来生成这些基于定义良好的函数(涉及线性、非线性、有理、甚至超越项)的问题 。

例如 , 我们想要评估各种核化SVM分类器在配备有日驱复杂的分离器(线性到非线性)的数据集上的有效性 , 或者想证明线性模型对于由有理函数或超越函数生成的回归数据集的局限性 。 利用scikit-learning的这些功能很难做到这一点 。

此外 , 用户可能只想输入符号表达式作为生成函数(或分类任务的逻辑分隔符) 。 仅使用scikit-learning的实用程序是不太容易做到这一点的 , 并且必须为实验的每个新实例编写自己的函数 。

推荐阅读