聚类分析:无监督算法的理论与实现( 三 )
聚类分析:无监督算法的理论与实现
简而言之 , 聚类不过是根据某些属性分离观察值 。 用更专业的术语来说 , 聚类是一种无监督的机器学习算法 , 是一种过程 , 通过该过程将观察值(数据)进行分组 , 以使相似的观察值彼此靠近 。 这是一种“无监督”算法 , 因为与有监督算法(例如随机森林)不同 , 您不必使用标记的数据对其进行训练 , 计算机会根据基础模式和属性对数据进行聚类 。 聚类分析是一种面向计算机的数据分析技术 。 它是许多研究领域的产物:统计、计算机科学、运筹学和模式识别 。
本文的目的是重点介绍一些行业应用程序 , 并讨论最常用的聚类算法的优缺点 。 在第二部分中 , 我将以Python环境中的示例演示K-means聚类的实现 。 最后 , 我将为实践数据科学家留下一些其他技术说明 。 行业应用为什么聚类在统计和机器学习领域如此流行呢?这是因为聚类分析是在许多业务应用程序案例中的强大数据挖掘工具 。 以下是许多应用程序中的一些:探索性数据分析(EDA):聚类是最基本的数据分析技术的一部分 , 该技术用于理解和解释数据以及开发有关数据的特征和模式的初步直觉 。 统计分析:经常用于识别不同样本中同一变量的(不同)相似性(例如 , 城市A 与城市B的孩子之间的数学得分) 。 城市规划:聚类有助于识别具有相似特征的家庭和社区 , 以实施适当的社区发展政策 。 异常检测:保险行业使用聚类来识别异常和潜在的欺诈交易 。 客户细分:聚类广泛用于制定营销策略 , 例如 , 针对不同类别的客户进行不同类型的促销 。 计算机视觉:在计算机视觉/图像分割中 , 聚类用于基于模式识别过程将数据划分为不相交的组 。 在生物学中:聚类是遗传学和分类学的重要工具 , 有助于理解生物和灭绝生物的进化 。 聚类在其他方面也有广泛的应用 , 如建立推荐系统、社交媒体网络分析、土地利用分类中的空间分析等 。 聚类算法聚类算法有几种变体:K-means、hierarchy、DBSCAN、spectrum、gaussian、birch、mean shift、affinity propagation等 。 下面 , 我重点介绍前三种算法中的一些关键点-最常用的算法 。 K均值:首先 , “ K ”是指所需的聚类数 。 也就是说 , K = n表示要识别的n个聚类 。 所谓的“质心” , 它是一个虚构/人造的数据点(数据点的平均值) , 每个数据聚类都围绕该点进行分区 。 因此 , K = 2意味着该算法会将观测值(数据)划分为2个聚类 , 以使质心和观测值之间的距离最小 。 优点:易于理解 , 易于实施缺点:有时很难选择 K ; 离群值可能改动质心层次聚类:层次聚类以两种不同的方式工作:第一种称为“自下而上”或agglomerative clustering , 其中每个观测得到自己的聚类 , 然后将每一对聚类合并在一起以形成另一个聚类 , 依此类推 。 另一个(也称为 “自上而下”或divisive clustering)以相反的方向工作 , 即 , 所有观察都从一个聚类开始 , 然后反复分成较小的聚类 。 优点:易于实施;通过查看树状图可以轻松识别聚类的数量;比K-均值聚类提供了更多信息缺点:对异常值高度敏感;大型机器学习数据集可能很耗时DBSCAN:于1996年提出 , 它是一种基于密度的算法 , 其中 , 根据给定的最少点数彼此之间的接近程度 , 将观察结果聚类 。 它具有两个参数:ε(epsilon)-确定点应在一个聚类中的半径;(ii)minPts —指定形成密集空间/集群的最小点数 。 有趣的是 , 提出该算法的1996年论文在2014年KDD会议上获得了“ Test of Time Award ” 。 优点:与K-means和层次聚类不同 , DBSCAN在异常值存在时是健壮的;因此可以用于异常(即离群值)检测 。 缺点:对参数值( ε 和 minPts)敏感;无法以变化的数据密度适当地识别任何聚类 。 Python实现实施聚类算法的整个过程非常简单 , 因为与其他监督型机器学习算法相比 , 该过程中的人工决策和参数调整更少 。 在本节中 , 我将演示使用sklearn库在Python环境中的K-means聚类实现 。 第1步:安装依赖项基本上 , 您需要三个库:pandas用于处理数据 , seaborn用于可视化 , sklearn用于输入预处理和机器学习建模 。
推荐阅读
- edg战队|EDG决赛生死局圣枪哥直呼最后两局!Viper质问监督怕什么
- 马里奥|AG迅速衰退原因分析!2个关键人物离队影响太大,月光驾驭不住了
- gta三部曲|梦幻西游:129级五开分析师,研究抓鬼任务最优化投入,不浪费一分钱
- ag战队|魔兽TBC:免费转服即将开放,四类服务器现状分析,玩家把握机会
- 端游|LOL双城之战彩蛋分析 范德尔最终变成了狼人 辛吉德也在剧中出现
- |魔兽TBC:T6副本小怪掉落,11件极品装备分析,P3阶段的第一桶金
- 孤岛惊魂6|英雄联盟世界赛参赛队分析!EDG战队!
- |魔兽TBC:法师1万金拿下盘蛇分解,职业饰品价值分析,千金也正常
- 李九|S组才是真正的宝藏!解说李九深度分析KPL秋季赛第三轮,爆发到了
- 卡牌|哈利波特:新增卡牌分析,罗恩有望超越卡姐,变形咒适合速转流