公卫百科首页>> 公卫百科>> 医学统计 >>因子分析

因子分析
 
摘要: 医学研究中经常遇到多指标的问题,例如描述牙槽弓形状特征可用22个指标。指标多会增加分析中的麻烦。



医学研究中经常遇到多指标的问题,例如描述牙槽弓形状特征可用22个指标。指标多会增加分析中的麻烦。事实上,不同指标之间往往有一定的相关性,因此有可能用较少的综合因子来代替原来较多的指标,使这些较少的因子既能综合反映原指标的大部分信息,而且相互之间可以是无关的。对于这些互不相关的因子,可以逐个地分析它所代表的意义。因子分析就是用以解决这类问题的。通常将p个指标X1,X2,…,Xp (简记为Xi,i=1,2,…,p),综合而成的m个因子F1,F2,…,Fm(简记为Fj,j=1,2,…,m;且m≤p)。例如,按二个指标X1,X2测得n对数据,结果如图中散点所示。

二指标因子分析示意

由图可见,这n个点子的分布有一定规律。这些点子的信息分别由X1、X2来反映,但X1、X2之间又显然有某种程度的相关,即X1增大时,X2也增大。因此若用因子F1、F2来代替X1、X2,也就是用新坐标系F1OF2来代替

旧坐标系X1OX2,则不但可使F1与F2互不相关(F2的大小与F1的大小无关),而且,因为这n个点大多沿着F1轴散开,变异较大,而在F2轴上则变异较小;故F1就反映了X1和X2中所含的主要信息(比如说75%)。这样,只用F1一个因子就能反映原来二个指标所含信息的75%,而F2只反映全部信息中的25%,故称F1为第一主因子,F2为第二主因子。

原理 因子分析有二个基本问题:

(1)将指标用因子表达。

式中各Fj与所有的指标有关,称为公共因子,Ui(i=1,2,…,p)表示Xi中各Fj不能反映的部分,称为单一因子,后者只与对应的指标有关。因子分析的运算过程(可用计算机完成)就是按下述原则求各Fj的系数aij:①各Fj之间互不相关,②Fj的方差(用以反映指标的综合信息量)中,F1的方差应最大,F2的方差次之,依次递减。通常可用主成分分析法来求解。此时所求得的F1,F2,…,Fm又常称为第一、第二、…第m主成分。(2) 将公共因子用指标表达。式(2)的系数矩阵为式(1)中Fj的系数矩阵的转置矩阵。任一观察单位的各指标值代入式(2)就能求得各Fj值,它们可称为该观察单位的因子计量或因子得分,是从所有原始指标中,把与某一特定的因子有关的信息集中起来,必要时可利用因子计量作进一步的统计分析。

方法

(1)设有n个观察单位,各调查p个指标X1,X2,…,Xp,得数据排列如表1。

表1 p个指标的观察值

观察单位号

指 标

X1

X2

Xp

1
2

X11
X21

X12
X22


X1p
X2p

n

Xn1

Xn2

Xnp

(2)将各Xi标准化,即各Xi分别减去其相应均数I并除以其标准差SI,记为XI=(XI-i) /si。 并求其两两相关系数,列成相关矩阵。由相关矩阵,用线性代数中的运算方法求得其p个特征根,从中选取m (m≤p)个λj (j=1,2,…,m)。并规定λ1≥λ2≥…≥λm,从而求得各λj的标准化特征向量lij。

(3)按式(3)计算式(1)中的aij

(4)计算所取的m个主因子F1,F2,…,Fm对某Xi的贡献Vi

(5)式(1)中单一因子Ui的系数ai,其平方值a2i即为Ui的方差,可用下式求得。

a2i=1-Vi,(5)

式中a2i表示m个主因子对指标Xi未能反映部分的信息量。

(6) 为使每一个公共因子只和最少数的指标有相关关系,必要时可进行因子旋转。

几个常用术语的意义:

(1)特征根λj体现了某一主因子Fj对所有指标Xi(i=1,2,…,p)总的贡献。因此,为主因子Fj的贡献率,即Fj所反映的是所有指标所含综合信息量的百分率。

(2)λj/p称为从F1到Fm共m个主因子的累计贡献率,即m个主因子所反映的各Xi中所含综合信息的百分率。

(3) aij称为因子负荷量,它体现了某一主因子Fj对某指标Xi的贡献(即Fj反映Xi中所含信息的量)。是m个主因子F1,F2,…,Fm对某Xi的贡献。

因子分析分为R型和Q型两类。如上所述,从指标间的相关矩阵出发,提取指标中的主因子,称为R型分析。若从观察单位间的相关矩阵出发,提取观察单位中的主因子则称为Q型分析。在临床上,前者常用于对因子所代表的病因作分析和解释,后者可用于找主因子所代表的典型病例。

例 为了研究牙槽弓的形状特征,某单位调查了609例全口缺牙病人,每个患者各测22个指标Xi,分别反映上下牙槽弓的宽度、深度与长度。试用少数几个综合因子来概括这22个指标所反映的特征(本例仅考虑公共因子)。

(1)将各Xi标准化后,计算其两两间的相关系数,并由相关矩阵求出22个特征根及其累计贡献率见表2。

表2 累计贡献率的计算(节录)

因子Fj
j

贡 献
λj

累计贡献
∑λj

累计贡献率(%)
∑λj/22

1
2
3
4
5

10.2568
2.8334
2.1685
1.8811
1.2776

10.2568
13.0902
15.2587
17.1398
18.4174

46.62
59.50
69.36
77.91
83.72

 ⋮

 ⋮

 ⋮

 ⋮

22

0.0317

22.0000

100.00

(2)结合专业知识,可见仅取λ1,λ2与λ3三个特征根其累计贡献率已近70%。这就是说仅取三个因子F1、F2与F3就体现了原22个指标中所含信息的70%。由λ1、λ2与λ3可计算得相应的标准化特征向量,见表3。

表3 三个主因子的标准化特征向量lij

由表2、表3按式(3)可求得各因子负荷量aij,见表4。

表4 因子负荷量及累计贡献率

指标

ai1

ai2

ai3

累计贡献率(%),Vi

X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X16
X17
X18
X19
X20
X21
X22

0.7209
0.7762
0.7788
0.7120
0.5431
0.6399
0.6862
0.6838
0.6709
0.5353
0.3861
0.6852
0.7039
0.4796
0.7592
0.7488
0.7588
0.7574
0.7598
0.7636
0.7020
0.5991

-0.1251
-0.1048
-0.0370
0.0344
0.1036
0.5652
0.6004
0.5521
0.4879
0.4076
-0.1113
-0.4769
-0.5205
0.3105
-0.1806
-0.2733
-0.4180
-0.4446
-0.1102
-0.1319
-0.1549
0.5077

0.0678
0.3054
0.4676
0.5626
0.5819
-0.2929
-0.0910
0.0822
0.1788
0.3229
-0.4197
-0.2173
-0.1254
-0.5560
-0.3424
-0.2758
0.0778
0.1162
-0.1043
-0.1137
-0.1051
-0.4054

53.98
70.67
82.65
82.46
64.41
81.47
83.96
77.92
72.01
55.68
33.76
74.42
78.21
63.56
72.62
71.15
75.66
78.48
60.03
61.34
52.78
78.10

表4中的aij即式(1)的系数矩阵的元素,其转置矩阵的元素即式(2)的各系数bji

由表4及上式可见,F1的各系数b1i (i=1,2,…,22)均为正值且大小相近。这表示牙槽弓各指标的尺寸都大(即口型大)时,F1也大;各指标都小(即口型小)时,F1也小,故F1可称为大小因子。F2的各系数b2i有正也有负: X6~X10 (都反映下牙槽弓宽度)为正,X11、X12、X13、X15~X31 (几乎全部深度、长度指标)为负。当前者较大,且后者较小时,则F2值就大,表示下牙槽弓形状较扁平;反之,就较狭长,故F2为反映下牙槽弓形状的形状因子。F3的各系数b3i也有正有负: X1~X5(都反映上牙槽弓宽度)为正,X11~X16 (反映上下牙槽弓深度),X19~X22 (多反映下牙槽弓长度)为负。当F3较大时,上牙槽弓形状扁平;反之则狭长,故F3为反映上牙槽弓形状的形状因子。

(3)据各因子负荷量aij,由式(4)可求得三个主因子对各Xi的累计贡献率Vi见表4最后一栏。由累计贡献率可见,取三个主因子时,对各指标的贡献已相当大,其中以对X3、X4、X5、X7、X、X13、X17、 X18、 X22的贡献较大,累计贡献率达75%以上,对其余的Xi (除X11外)的贡献率也都在50%以上。

发表评价

词条信息

  • 浏览次数:8720 次
  • 发布时间: 2013-01-06
  • 更新时间: 2013-01-06

参与评价:

  • 词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
热门标签

中国疾病预防控制中心 版权所有 京ICP备11024750
中国疾控中心信息中心 内容管理与技术支持 建议使用1024*768 分辨率,IE8.0以上
地址:北京市昌平区昌百路155号 邮编:102206 热线电话:13911841040