聚类分析又称集群分析,是按“物以类聚”原则研究事物分类的一种多元统计分析方法。设对n个观察单位各观察了m个变量值,得原始数据如表1。
表1 原始数据格式
观察单位 | 变 量 | X1 | X2 | … | Xm | |||
a1 | X11 | X12 | … | X1m | ||||
an | Xn1 | Xn2 | … | Xnm |
当各观察单位或各变量所属类别未知时,可从测得的各变量值,经适当运算后将n个观察单位或m个变量分成若干类,比较相似的归并在同一类,使同类的内部差别较小,而类与类之间的差别较大,这就是聚类分析。
类型 (1) Q型分析。按表1数据对观察单位进行聚类称Q型分析。(2) R型分析。按表1数据对变量进行聚类称R型分析。
聚类指标 衡量变量间或观察单位间相似程度的指标有下列两大类:
(1)相似系数。常用于对变量聚类。
计量资料中Xi与Xj的相似系数可用相关系数表示。
式中lii、ljj分别为Xi、Xj的离均差平方和,lij为Xi与Xj的离均差积和。
等级资料可用列联系数表示。见条目“计数资料的相关分析”。若为R×C表资料(Xi取R个水平,Xj取C个水平),观察总频数为n,可先求得x2值,再由式(2)求列联系数Pij,
若为2×2表资料(Xi与Xj各只有两个水平),则可用式(3)计算点相关系数(亦称列联系数)rij,
相似系数的绝对值介于0到1之间。越接近1,则Xi与Xj之间越相似,宜聚在同一类; 越接近0,则Xi与Xj之间越不相似,不宜聚在同一类。
(2)距离。常用于对观察单位聚类,适用于计量资料。常用的有绝对值距离及平方根距离。ai与aj之间的绝对值距离为
平方根距离为
距离越小,表明ai与aj间越相似,宜聚在同一类。
聚类方法 常用的有: ①系统聚类法。先把N个聚类对象(观察单位或变量)看成N类,然后逐步合并成适当的类。②逐个聚类法。先把被聚对象进行初始分类,然后逐个加以修正,得最终聚类。③有序聚类法。按被聚单位的原有次序,将它们截成几段,即分成几类,但各段之间是互相衔接的。作法是先把n个被聚单位看作一类,然后再逐个分割成适当的类。此法只适用于对观察单位聚类。
聚类分析与判别分析的联系 二者同属分类问题,但判别分析要求事先知道各类总体情况才能判断新个体的归属。当各类总体不清楚时,可先用聚类分析法进行聚类,然后建立判别函数,再对新个体判别其归属。
聚类分析与回归分析的联系 在回归分析中,当自变量之间的相关性太大时,回归效果就不好;另外,如何挑选有代表性而且作用较大的指标,也并不容易,聚类分析有助于解决这些问题。一般可先将自变量聚类,然后从每一类中,挑选最有代表性的指标作为自变量。在建立回归方程时也常对观察单位先聚类,然后每一类各自建立回归方程,它比一个总的回归方程的稳定性要好。
例1 某单位研究牙槽弓的分型,测得了609例全口缺牙病人的牙槽弓特征资料,见表2。每例病人测量了能反映牙槽弓形状的22个特征值(变量),记为X1,X2,…X22。显然不可能也不必要用22个变量来分型。如果全用上,即使每个变量只分2级,也将有222 = 4194304种型号,完全不切合实际。试用聚类分析方法找出能反映上下牙槽弓形状的一些典型变量,作为分型的依据,据以定出不同类型的牙槽弓。
(1)将原始资料整理成表2形式。
表2 609付牙槽弓的22个特征值(单位:mm)
牙槽弓编号 | 变 量 | X1 | X2 | X3 |
| X21 | X22 | |||||
1 | 32.50 | 34.00 | 34.50 | … | 38.00 | 31.00 | ||||||
… | … | … | … | … | … | … | ||||||
609 | 25.00 | 33.00 | 39.00 | … | 28.50 | 34.00 |
(2)用式(1)求出任两个变量Xi与Xj的相关系数rij (见表3)作为聚类指标。
表3 22个变量两两间的相关系数(节录)
变量 | 变 量 | X1 | X2 | X3 | … | X6 | … | X15 | … | X21 | ||||||||
X2 | 0.82 |
|
|
|
|
|
|
|
| |||||||||
X3 | 0.68 | 0.87 |
|
|
|
|
|
|
| |||||||||
X4 | 0.52 | 0.72 | 0.89 |
|
|
|
|
|
| |||||||||
… | … | … | … | … |
|
|
|
|
| |||||||||
X16 | 0.41 | 0.41 | 0.41 | … | 0.31 | … | 0.91 |
|
| |||||||||
… | … | … | … | … | … | … | … | … |
| |||||||||
X21 | 0.90 | 0.72 | 0.56 | … | 0.41 | … | 0.43 | … | 0.37 |
(3)对变量进行聚类。首先将22个变量看成22类。这时任两类间的相关系数就是任两变量间的相关系数,如表3所示。其次,从表3中挑出一个最大的相关系数0.91,将相应的第15、16两类合并成一类,记作第23类,这样就把原来的22类合并成为21类。再计算其余各类与新类(第23类)的相关系数。制出21类两两间的相关系数表(类似表3,从略),从表中又挑出最大的相关系数0.90,并将相应的第1、21两类再合并成一类,记作第24类,这样就把资料合并成20类。再计算新类(第24类)与其余各类的相关系数,列出20类两两间的相关系数表(类似表3,从略),从表中挑出最大的相关系数0.89,并将相应的第3、4两类再合并成一类。如此一直下去,直至合并成只有一类为止。整个聚类过程及结果可用图表示。
聚类图
(4)对聚类图进行分析,并结合临床知识,将22个变量聚成下列三类较合适。
I 类 | X12 X13 X15 X16 X17 X18 X19 X20; |
II类 | X1 X2 X3 X4 X5 X11 X21; |
III类 | X6 X7 X8 X9 X10 X14 X22。 |
从临床角度来看,第Ⅰ类变量主要反映上下牙槽弓的深度与长度(由聚类图可见,它又可分成两亚类,其中X12,X13,X17,X18反映上牙槽弓,其余反映下牙槽弓);第Ⅱ类变量主要反映上牙槽弓的宽度;第Ⅲ类变量反映下牙槽弓的宽度。
(5)在聚得的每类变量中,各挑出一个有代表性的变量作为典型变量。为此计算每一个变量与其同类的其他变量的决定系数r2 (即相关系数的平方)的均数2。
式中k为该类的变量个数。挑选2值最大的Xi作为该类的典型变量。本例的典型变量为第Ⅰ类中的X13、第Ⅱ类中的X2、第Ⅲ类中的X8,故以这三个变量作为分型特征。再经过一些必要的数学处理,就可将牙槽弓分成若干型。
例2 为了研究儿童生长发育的分期,调查了某县1253名1月~7岁男孩的身高(cm)、体重(kg)、胸围(cm)及坐高(cm)四项特征(变量),试根据这些特征的不同变化速度将1月~7岁分为几个生长发育阶段。
本例与例1不同,须考虑分类对象的秩序,它是一种有序资料的聚类,分析时先将出生后1足月到7足岁这段时期预分为19个阶段。然后,以出生时的各特征值为基础分别求出第一段中各变量的月平均增长率,其后各段则以前段的各特征值为基础分别计算出每段中各变量的月平均增长率。结果见表4。
表4 1253名1月~7岁男童的生长发育情况
如果按单变量分期,不难凭直观进行聚类,结果在表4中已列出。但不同变量的聚类结果不同,情况错综复杂。大致可聚成四类,第1段“1月”,其中各项特征的增长率都相当高,应自成一类。第10段以后各特征的增长率都比较缓慢也可以聚成一类。但第2~9段,各特征表现形式不一,如何划分很难作出明确判断,这就需要用有序观察单位聚类法将各特征综合加以考虑来进行聚类。现用式(5)的平方根距离作为聚类指标,按最优分割法可聚为八类,再参照专业知识,将八类并成四个阶段,即:
第一阶段 1月~ 增长率最高,
第二阶段 2月~ 增长率次之,
第三阶段 1岁~ 增长率显著减缓,
第四阶段 2.5~7岁 增长率更加减缓。
![]() |