聚类分析:5步模拟数据进行K均值聚类!( 二 )

2. 计算每个类中所有对象的平均值,表示类的中心点。

3. 根据每个对象与各个类中心的距离,分配给最近的类。

4. 若满足【终止条件】,则结束聚类;否则,转到步骤2。

终止条件可以是:

没有(或者小于某个数值的)对象被重新分配给不同的类;

没有(或者小于某个数值的)类中心发生变化;

误差平方和(SSE)达到局部最小;达到指定的迭代次数。

K均值算法必须在平均值有意义的情况下才能使用,因此不适用于分类变量。需要给定聚类数目,并且对异常数据和数据噪声比较敏感。

02 系统聚类算法

系统聚类有两种类型:聚合的(自下而上的)或者分解的(自上而下的)。

聚合的系统聚类法将每个对象都看做独立的一类,每一次通过合并最相似的聚类来形成上一层次中的聚类,整个当全部数据点都合并到一个聚类的时候停止或者达到某个终止条件而结束——这是大部分系统聚类所采取的方式。

推荐阅读