基本信息
文件名称:第13讲 聚类分析-2课件.ppt
文件大小:502 KB
总页数:48 页
更新时间:2025-06-19
总字数:约5.38千字
文档摘要

第十三讲;5.5快速聚类法

(quickclustermethodk-meansmodel)

也叫动态聚类、逐步聚类、迭代聚类);原理;初始凝聚点

initialclusterseeds;clustercenters;5.6变量聚类法

;5.7用VARCLUS过程实现变量聚类分析;[例5.1]为研究人脑老化的严重程度,有人测定了不同年龄的60名正常男性10项有关指标的数据,各变量的含义如下:AGE为年龄、TJ为图片记忆、SG为数字广度记忆、TS为图形顺序记忆、XX为心算位数、XS为心算时间、CK为规定时间内穿孔数、BJ为步距、JJ为步行时双下肢夹角、BS步速。试对这些指标作变量聚类分析。;DATAd6p5;

INPUTagetjsgxxxstsckbjjjbs@@;

CARDS;

16179145.14495435.323.924820835.005123724.703.73

18128143.575114630.663.304918851.875103422.544.77

19118211.673125337.013.085013843.205114533.472.78

2018957.04594730.103.9051167143.58524026.274.38

2115966.575105737.142.7252178142.86573423.935.10

22198143.295114630.663.2453108143.43344126.014.04

2416953.502104327.644.415411886.18523725.453.80

2519963.57194226.544.4955118142.15404229.682.61

26179143.86395229.243.545687922.10154529.806.67

2715816.00494232.304.3857121074.50582415.957.29

28187143.98595133.943.035810699.50244328.963.50

292010141.93584330.794.51591110128.690124431.152.89

301410142.93574532.674.456012788.78281812.927.43

;

;PROCVARCLUSCENTROIDMAXC=4;

VARagetjsgxxxstsckbjjjbs;

RUN;;第2个过程语句中用了选择项CENTROID,其聚类方法为重心分量聚类法。

这2个过程步最终会聚成多少类,将由软件中隐含的临界值来决定;;第3个过程语句中加了HI(要求在不同水平上的聚类保持系统结构,但与无此选则项时的区别并不明显),MAXC=4要求从1类聚到4类,此选择项的最大值为变量的个数。;何时需选用重心分量聚类方法呢?当用户想让类分量或成分(ClusterComponents)代表标准化变量(未加权的,是软件缺省值)或未标准化变量(若指定用COV,即用协方差矩阵)的均数时,应加CENTROID。;[输出结果及其解释];Totalvariationexplained=5.654444Proportion=0.5654

1类分裂成2类,各含5个指标,此时能解释的方差为5.65444,占总方差10的56.54%。;;同理可理解该列中的其他相关系数的含义;第1类中的某个指标与相邻类(此处为第2类)的类成分之间的相关系数的平方,称为R-squaredwithNextclosest,如:AGE与第2类成分之间的相关系数的平方为0.2958,该值越小,说明分类越合理。

最后一列的比值由同一横行的数据求得,如