基本信息
文件名称:数据挖掘聚类分析.ppt
文件大小:92.79 MB
总页数:74 页
更新时间:2025-08-01
总字数:约3.61千字
文档摘要

实例分析第30页,共74页,星期日,2025年,2月5日第31页,共74页,星期日,2025年,2月5日第32页,共74页,星期日,2025年,2月5日第33页,共74页,星期日,2025年,2月5日聚类的基本类型第34页,共74页,星期日,2025年,2月5日层次聚类自底向上(凝聚)假定所有项属于一个单独簇,然后寻找最佳配对并合并成一个新的簇自顶向下(分裂)开始将所有数据看作一个簇,考虑所有可能的方法,将簇一分为二选择最佳划分,并递归第在这两个上继续划分第35页,共74页,星期日,2025年,2月5日凝聚层次聚类依靠共同的距离度量,聚类过程从寻找距离最近的簇开始,并把这两个簇合并为一个簇。在开始时,让每个对象自成一簇,每个簇都以选定的距离度量定义合并后,如何确定新簇之间的距离???单连接(singlelinkage)完全连接(completelinkage)第36页,共74页,星期日,2025年,2月5日单连接(最近邻)两个簇的距离由不同簇的两个最近的对象间的距离决定簇的距离是属于不同簇的两个样本间的最近距离d(c1,c2)=min{d(o,O)}第37页,共74页,星期日,2025年,2月5日完全连接(最远邻)两个簇的距离隶属于不同簇的距离最远的两个对象的距离所决定(最远邻的距离)第38页,共74页,星期日,2025年,2月5日组平均两个簇的距离就是隶属不同簇的所有对象的距离的平均加权平均组质心加权组质心沃德法第39页,共74页,星期日,2025年,2月5日单连接第40页,共74页,星期日,2025年,2月5日第41页,共74页,星期日,2025年,2月5日第42页,共74页,星期日,2025年,2月5日第43页,共74页,星期日,2025年,2月5日第44页,共74页,星期日,2025年,2月5日完全连接第45页,共74页,星期日,2025年,2月5日第46页,共74页,星期日,2025年,2月5日第47页,共74页,星期日,2025年,2月5日第48页,共74页,星期日,2025年,2月5日层次聚类的优缺点优点可以通过观察树状图来确定正确的簇数目层次的本质很好地反映了人类对某些领域的直觉树状图的一个潜在应用时可以用来检测离群点缺点有时会表现出无意义的或者不合逻辑的模式无需事先指定簇的数目层次本质很好地反映了人类对某些领域认识的直觉可伸缩性不好:时间复杂性至少为O(n2),n是所有对象的数量和任何启发式搜素算法一样,局部最优是一个问题对结果的解释具有主观性第49页,共74页,星期日,2025年,2月5日算法的步骤决定k的取值初始化k个簇中心通过把对象分配给最近的簇中心来确定N个对象的簇隶属关系假设上面所得的隶属关系是正确的,重新计算k个簇中心若在最后一次迭代中N个对象无一再改变隶属关系,则退出,否则再转第3步第50页,共74页,星期日,2025年,2月5日K-means算法基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值K-Means聚类算法主要分为三个步骤:

(1)第一步是为待聚类的点寻找聚类中心

(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去

(3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心

反复执行(2)、(3),直到聚类中心不再进行大范围移动或者聚类次数达到要求为止第51页,共74页,星期日,2025年,2月5日第52页,共74页,星期日,2025年,2月5日第1页,共74页,星期日,2025年,2月5日引言“物以类聚,人以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础科学。在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如:在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。第2页,共74页,星期日,2025年,2月5日但历史上这些分类方法多半是人们主要依靠经验作定性分类,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系;特