第13讲聚类分析-2课件.ppt

基本信息

文件名称：第13讲聚类分析-2课件.ppt

文件大小：502 KB

总页数：48 页

更新时间：2025-06-19

总字数：约5.38千字

文档摘要

第十三讲;5.5快速聚类法

（quickclustermethodk-meansmodel）

也叫动态聚类、逐步聚类、迭代聚类）;原理;初始凝聚点

initialclusterseeds；clustercenters;5.6变量聚类法

;5.7用VARCLUS过程实现变量聚类分析;[例5.1]为研究人脑老化的严重程度，有人测定了不同年龄的60名正常男性10项有关指标的数据，各变量的含义如下：AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。;DATAd6p5;

INPUTagetjsgxxxstsckbjjjbs@@;

CARDS;

16179145.14495435.323.924820835.005123724.703.73

18128143.575114630.663.304918851.875103422.544.77

19118211.673125337.013.085013843.205114533.472.78

2018957.04594730.103.9051167143.58524026.274.38

2115966.575105737.142.7252178142.86573423.935.10

22198143.295114630.663.2453108143.43344126.014.04

2416953.502104327.644.415411886.18523725.453.80

2519963.57194226.544.4955118142.15404229.682.61

26179143.86395229.243.545687922.10154529.806.67

2715816.00494232.304.3857121074.50582415.957.29

28187143.98595133.943.035810699.50244328.963.50

292010141.93584330.794.51591110128.690124431.152.89

301410142.93574532.674.456012788.78281812.927.43

;

;PROCVARCLUSCENTROIDMAXC=4;

VARagetjsgxxxstsckbjjjbs;

RUN;;第２个过程语句中用了选择项CENTROID，其聚类方法为重心分量聚类法。

这２个过程步最终会聚成多少类，将由软件中隐含的临界值来决定；;第３个过程语句中加了HI（要求在不同水平上的聚类保持系统结构，但与无此选则项时的区别并不明显），MAXC=4要求从１类聚到４类，此选择项的最大值为变量的个数。;何时需选用重心分量聚类方法呢？当用户想让类分量或成分（ClusterComponents）代表标准化变量（未加权的，是软件缺省值）或未标准化变量（若指定用COV，即用协方差矩阵）的均数时，应加CENTROID。;[输出结果及其解释];Totalvariationexplained=5.654444Proportion=0.5654

１类分裂成２类，各含５个指标，此时能解释的方差为5.65444，占总方差10的56.54％。;;同理可理解该列中的其他相关系数的含义；第１类中的某个指标与相邻类(此处为第２类)的类成分之间的相关系数的平方,称为R-squaredwithNextclosest，如：AGE与第２类成分之间的相关系数的平方为0.2958,该值越小，说明分类越合理。

最后一列的比值由同一横行的数据求得，如