聚类分析：无监督算法的理论与实现( 四 )

2020-01-01

第2步：数据我在此演示中使用的数据是著名的虹膜数据集。我之所以选择此数据集，是因为可以在散点图中轻松/直观地分离聚类。在许多情况下，导入数据后，您可能需要进行一些处理，例如对分类变量进行编码等。还需要确保没有任何NaN值。

第3步：准备模型输入选择数据集之后，下一步是预处理/格式化输入，使模型能够使用它。在这个阶段会发生两件事:对所选特征进行归一化和将数据帧转换为numpy数组。

第4步：确定聚类数在K-means算法中，您需要定义所需的聚类数。所谓的“elbow method”可以通过最小化误差平方和来帮助确定。

第5步：模型实现在上一步中确定了唯一必需的参数后，可以很好地拟合机器学习模型，可视化二维图中的聚类数，并进行进一步分析以回答您正在寻找的研究问题。

最后

推荐阅读↓↓↓↓↓↓↓

推荐阅读

上一篇：天玑产品交流会：集成式5G芯片和WiFi-6才是未来

下一篇：小米生态链出新品，小寻16寸第三代手写板体验，屏幕大更护眼