基本信息
文件名称:第九讲聚类分析.ppt
文件大小:2.85 MB
总页数:30 页
更新时间:2025-06-19
总字数:约2.81千字
文档摘要

第九讲聚类分析第1页,共30页,星期日,2025年,2月5日方法原理按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。直观的理解为按空间距离的远近来划分类别第2页,共30页,星期日,2025年,2月5日方法原理假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个体分类,也可以对变量分类此时一般使用相似系数作为“距离”测量指标第3页,共30页,星期日,2025年,2月5日方法原理例:根据年龄将人群分成适当的类,从右图可见,人群被分为两类是比较合适的。第4页,共30页,星期日,2025年,2月5日方法原理在右图中可以看到五个样品应当可能被分为两组或者三组,C/D组x和y的取值均偏低,而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义第5页,共30页,星期日,2025年,2月5日方法原理当用于聚类的变量逐渐增多时,分析思路完全相同,只是这样简单、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察,改用复杂的统计指标缩减维度,使得可以在低维度空间进行呈现第6页,共30页,星期日,2025年,2月5日特点聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,可能事先没有任何有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法。第7页,共30页,星期日,2025年,2月5日聚类分析与SPSS软件第8页,共30页,星期日,2025年,2月5日TwoStepCluster过程特点:处理对象:分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正态分布模型稳健第9页,共30页,星期日,2025年,2月5日TwoStepCluster过程步骤:建立ClusterFeatures(CF)Tree确定最佳聚类数分析实例:某汽车制造商为了了解整个汽车市场的形势,希望根据汽车的基本属性和价钱对其进行分类,以有效地提高竞争力。数据:car_sales.savcategoricalvariable:Vehicletypecontinuousvariables:Priceinthousands~Fuelefficiency第10页,共30页,星期日,2025年,2月5日价位低、车型小、省油第11页,共30页,星期日,2025年,2月5日在该类中,所有变量均对分类有意义按变量对分类的贡献大小排序Fuelefficiency唯一大于均值第12页,共30页,星期日,2025年,2月5日K-meansCluster过程k-均值聚类(k-meanscluster,也叫快速聚类,quickcluster)要求你先说好要分多少类。假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。第13页,共30页,星期日,2025年,2月5日K-meansCluster过程属于非系统聚类法的一种方法原理选择(或人为指定)某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止第14页,共30页,星期日,2025年,2月5日K-meansCluster过程方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于100时有必要考虑只能使用连续性变量第15页,共30页,星期日,2025年,2月5日K-meansCluster过程分析实例一个电信服务提供商希