医学研究中经常遇到多指标的问题,例如描述牙槽弓形状特征可用22个指标。指标多会增加分析中的麻烦。事实上,不同指标之间往往有一定的相关性,因此有可能用较少的综合因子来代替原来较多的指标,使这些较少的因子既能综合反映原指标的大部分信息,而且相互之间可以是无关的。对于这些互不相关的因子,可以逐个地分析它所代表的意义。因子分析就是用以解决这类问题的。通常将p个指标X1,X2,…,Xp (简记为Xi,i=1,2,…,p),综合而成的m个因子F1,F2,…,Fm(简记为Fj,j=1,2,…,m;且m≤p)。例如,按二个指标X1,X2测得n对数据,结果如图中散点所示。
二指标因子分析示意
由图可见,这n个点子的分布有一定规律。这些点子的信息分别由X1、X2来反映,但X1、X2之间又显然有某种程度的相关,即X1增大时,X2也增大。因此若用因子F1、F2来代替X1、X2,也就是用新坐标系F1OF2来代替
旧坐标系X1OX2,则不但可使F1与F2互不相关(F2的大小与F1的大小无关),而且,因为这n个点大多沿着F1轴散开,变异较大,而在F2轴上则变异较小;故F1就反映了X1和X2中所含的主要信息(比如说75%)。这样,只用F1一个因子就能反映原来二个指标所含信息的75%,而F2只反映全部信息中的25%,故称F1为第一主因子,F2为第二主因子。
原理 因子分析有二个基本问题:
(1)将指标用因子表达。
式中各Fj与所有的指标有关,称为公共因子,Ui(i=1,2,…,p)表示Xi中各Fj不能反映的部分,称为单一因子,后者只与对应的指标有关。因子分析的运算过程(可用计算机完成)就是按下述原则求各Fj的系数aij:①各Fj之间互不相关,②Fj的方差(用以反映指标的综合信息量)中,F1的方差应最大,F2的方差次之,依次递减。通常可用主成分分析法来求解。此时所求得的F1,F2,…,Fm又常称为第一、第二、…第m主成分。(2) 将公共因子用指标表达。式(2)的系数矩阵为式(1)中Fj的系数矩阵的转置矩阵。任一观察单位的各指标值代入式(2)就能求得各Fj值,它们可称为该观察单位的因子计量或因子得分,是从所有原始指标中,把与某一特定的因子有关的信息集中起来,必要时可利用因子计量作进一步的统计分析。
方法
(1)设有n个观察单位,各调查p个指标X1,X2,…,Xp,得数据排列如表1。
表1 p个指标的观察值
观察单位号 | 指 标 | X1 | X2 | … | Xp | |||
1 | X11 | X12 | … | X1p | ||||
… | … | … | … | … | ||||
n | Xn1 | Xn2 | … | Xnp |
(2)将各Xi标准化,即各Xi分别减去其相应均数I并除以其标准差SI,记为XI=(XI-i) /si。 并求其两两相关系数,列成相关矩阵。由相关矩阵,用线性代数中的运算方法求得其p个特征根,从中选取m (m≤p)个λj (j=1,2,…,m)。并规定λ1≥λ2≥…≥λm,从而求得各λj的标准化特征向量lij。
(3)按式(3)计算式(1)中的aij,
(4)计算所取的m个主因子F1,F2,…,Fm对某Xi的贡献Vi,
(5)式(1)中单一因子Ui的系数ai,其平方值a2i即为Ui的方差,可用下式求得。
a2i=1-Vi,(5)
式中a2i表示m个主因子对指标Xi未能反映部分的信息量。
(6) 为使每一个公共因子只和最少数的指标有相关关系,必要时可进行因子旋转。
几个常用术语的意义:
(1)特征根λj体现了某一主因子Fj对所有指标Xi(i=1,2,…,p)总的贡献。因此,为主因子Fj的贡献率,即Fj所反映的是所有指标所含综合信息量的百分率。
(2)λj/p称为从F1到Fm共m个主因子的累计贡献率,即m个主因子所反映的各Xi中所含综合信息的百分率。
(3) aij称为因子负荷量,它体现了某一主因子Fj对某指标Xi的贡献(即Fj反映Xi中所含信息的量)。是m个主因子F1,F2,…,Fm对某Xi的贡献。
因子分析分为R型和Q型两类。如上所述,从指标间的相关矩阵出发,提取指标中的主因子,称为R型分析。若从观察单位间的相关矩阵出发,提取观察单位中的主因子则称为Q型分析。在临床上,前者常用于对因子所代表的病因作分析和解释,后者可用于找主因子所代表的典型病例。
例 为了研究牙槽弓的形状特征,某单位调查了609例全口缺牙病人,每个患者各测22个指标Xi,分别反映上下牙槽弓的宽度、深度与长度。试用少数几个综合因子来概括这22个指标所反映的特征(本例仅考虑公共因子)。
(1)将各Xi标准化后,计算其两两间的相关系数,并由相关矩阵求出22个特征根及其累计贡献率见表2。
表2 累计贡献率的计算(节录)
因子Fj | 贡 献 | 累计贡献 | 累计贡献率(%) |
1 | 10.2568 | 10.2568 | 46.62 |
⋮ | ⋮ | ⋮ | ⋮ |
22 | 0.0317 | 22.0000 | 100.00 |
(2)结合专业知识,可见仅取λ1,λ2与λ3三个特征根其累计贡献率已近70%。这就是说仅取三个因子F1、F2与F3就体现了原22个指标中所含信息的70%。由λ1、λ2与λ3可计算得相应的标准化特征向量,见表3。
表3 三个主因子的标准化特征向量lij
由表2、表3按式(3)可求得各因子负荷量aij,见表4。
表4 因子负荷量及累计贡献率
指标 | ai1 | ai2 | ai3 | 累计贡献率(%),Vi |
X1 | 0.7209 | -0.1251 | 0.0678 | 53.98 |
表4中的aij即式(1)的系数矩阵的元素,其转置矩阵的元素即式(2)的各系数bji。
由表4及上式可见,F1的各系数b1i (i=1,2,…,22)均为正值且大小相近。这表示牙槽弓各指标的尺寸都大(即口型大)时,F1也大;各指标都小(即口型小)时,F1也小,故F1可称为大小因子。F2的各系数b2i有正也有负: X6~X10 (都反映下牙槽弓宽度)为正,X11、X12、X13、X15~X31 (几乎全部深度、长度指标)为负。当前者较大,且后者较小时,则F2值就大,表示下牙槽弓形状较扁平;反之,就较狭长,故F2为反映下牙槽弓形状的形状因子。F3的各系数b3i也有正有负: X1~X5(都反映上牙槽弓宽度)为正,X11~X16 (反映上下牙槽弓深度),X19~X22 (多反映下牙槽弓长度)为负。当F3较大时,上牙槽弓形状扁平;反之则狭长,故F3为反映上牙槽弓形状的形状因子。
(3)据各因子负荷量aij,由式(4)可求得三个主因子对各Xi的累计贡献率Vi见表4最后一栏。由累计贡献率可见,取三个主因子时,对各指标的贡献已相当大,其中以对X3、X4、X5、X7、X、X13、X17、 X18、 X22的贡献较大,累计贡献率达75%以上,对其余的Xi (除X11外)的贡献率也都在50%以上。
![]() |