机器学习入门必读:6种简单实用算法及学习曲线、思维导图( 四 )

聚类算法是一类无监督学习算法 。 聚类是研究(样品或指标)分类问题的一种统计分析方法 , 同时也是数据挖掘的一个重要算法 。

聚类分析以相似性为基础 , 在一个聚类中的模式比不在同一聚类中的模式具有更多的相似性 , 这是聚类分析的最基本原理 。 聚类分析的算法可以分成很多类方法 , 比如划分法、层次法、基于密度的方法、基于网络的方法和基于模型的方法 。

最有名的聚类算法就是K-Means(K-均值)算法 , 是最为经典的、基于划分的聚类方法 。 该算法的主要思路是以空间中k个点为形心进行聚类 , 将最靠近它们的对象归类 。 通过迭代的方法 , 逐次更新各簇的形心的值 , 直至得到最好的聚类结果 。 (形心可以是实际的点 , 也可以是虚拟点) 。

通过该算法我们可以将特征相似的数据聚合称为一个数据群组 , 而将特征相差较大的数据分开 。

4. 关联分析算法

关联分析是除了聚类以外的一种常用无监督学习方法 。 用于发现存在于大量数据集中的关联性或相关性 , 从而描述了一个事物中某些属性同时出现的规律和模式 。

推荐阅读