聚类分析:无监督算法的理论与实现( 四 )

第2步:数据我在此演示中使用的数据是著名的虹膜数据集 。 我之所以选择此数据集 , 是因为可以在散点图中轻松/直观地分离聚类 。 在许多情况下 , 导入数据后 , 您可能需要进行一些处理 , 例如对分类变量进行编码等 。 还需要确保没有任何NaN值 。

第3步:准备模型输入选择数据集之后 , 下一步是预处理/格式化输入 , 使模型能够使用它 。 在这个阶段会发生两件事:对所选特征进行归一化和将数据帧转换为numpy数组 。

第4步:确定聚类数在K-means算法中 , 您需要定义所需的聚类数 。 所谓的“elbow method”可以通过最小化误差平方和来帮助确定 。

第5步:模型实现在上一步中确定了唯一必需的参数后 , 可以很好地拟合机器学习模型 , 可视化二维图中的聚类数 , 并进行进一步分析以回答您正在寻找的研究问题 。

最后

推荐阅读↓↓↓↓↓↓↓

推荐阅读