第十三讲;5.5快速聚类法
(quickclustermethodk-meansmodel)
也叫动态聚类、逐步聚类、迭代聚类);原理;初始凝聚点
initialclusterseeds;clustercenters;5.6变量聚类法
;5.7用VARCLUS过程实现变量聚类分析;[例5.1]为研究人脑老化的严重程度,有人测定了不同年龄的60名正常男性10项有关指标的数据,各变量的含义如下:AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。;DATAd6p5;
INPUTagetjsgxxxstsckbjjjbs@@;
CARDS;
16179145.14495435.323.924820835.005123724.703.73
18128143.575114630.663.304918851.875103422.544.77
19118211.673125337.013.085013843.205114533.472.78
2018957.04594730.103.9051167143.58524026.274.38
2115966.575105737.142.7252178142.86573423.935.10
22198143.295114630.663.2453108143.43344126.014.04
2416953.502104327.644.415411886.18523725.453.80
2519963.57194226.544.4955118142.15404229.682.61
26179143.86395229.243.545687922.10154529.806.67
2715816.00494232.304.3857121074.50582415.957.29
28187143.98595133.943.035810699.50244328.963.50
292010141.93584330.794.51591110128.690124431.152.89
301410142.93574532.674.456012788.78281812.927.43
;
;PROCVARCLUSCENTROIDMAXC=4;
VARagetjsgxxxstsckbjjjbs;
RUN;;第2个过程语句中用了选择项CENTROID,其聚类方法为重心分量聚类法。
这2个过程步最终会聚成多少类,将由软件中隐含的临界值来决定;;第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。;何时需选用重心分量聚类方法呢?当用户想让类分量或成分(ClusterComponents)代表标准化变量(未加权的,是软件缺省值)或未标准化变量(若指定用COV,即用协方差矩阵)的均数时,应加CENTROID。;[输出结果及其解释];Totalvariationexplained=5.654444Proportion=0.5654
1类分裂成2类,各含5个指标,此时能解释的方差为5.65444,占总方差10的56.54%。;;同理可理解该列中的其他相关系数的含义;第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平方,称为R-squaredwithNextclosest,如:AGE与第2类成分之间的相关系数的平方为0.2958,该值越小,说明分类越合理。
最后一列的比值由同一横行的数据求得,如