聚类分析:5步模拟数据进行K均值聚类!( 三 )

系统聚类算法的好处是分析者可以对比不同聚类数量的结果,从中选择更感兴趣(更有解释力)的结果,这种对比可以通过生成的聚类树进行。

03 使用模拟数据进行K均值聚类

用R生成模拟数据为什么不使用现成的数据,而要用R来生成数据呢?

主要是因为在自己生成的数据中,我们可以预先定义存在哪些类型的用户群、每个用户群的属性是怎样的。

通过这种方式我们得以知道“客观现实”是怎样的,后面用SPSS做聚类分析时,可以将分析得出的结果与我们预设的“现实”做对比,看一下效果如何——聚类分析得出的类对我们预设的类的还原度有多高。

假设我们要做的是一款企业管理软件A的用户画像,所得数据中一共有1200个有效样本,其中存在三类用户:

第一类用户是“典型管理者”,年龄大约在30-40岁之间,对使用A软件态度相对较积极,认为公司的管理是很自由的。其样本共有200人。

第二类用户是“个性型员工”,年龄大约在20-25岁,对使用A软件态度波动较大,认为公司的管理很不自由。其样本共有400人。

推荐阅读