逐步回归是多元回归中用以选择自变量的一种常用方法。本条目重点介绍的是一种“向前法”。此法的基本思想是:将自变量逐个地引入方程,引入的条件是该自变量的偏回归平方和在未选入的自变量(未选量)中是最大的,并经F检验是有显著性的。另一方面,每引入一个新变量,要对先前已选入方程的变量(已选量)逐个进行F检验,将偏回归平方和最小且无显著性的变量剔除出方程,直至方程外的自变量不能再引入,方程中的自变量不能再剔除为止。另一种是“向后法”,它的基本思想是:首先建立包括全部自变量的回归方程,然后逐步地剔除变量,先对每一自变量作F(或t)检验,剔除无显著性的变量中偏回归平方和最小的自变量,重新建立方程。接着对方程外的自变量逐个进行F检验,将偏回归平方和最大且有显著性的变量引入方程。重复上述过程,直至方程中的所有自变量都有显著性而方程外的自变量都没有显著性为止(例见条目“多元线性回归”例1、2)。此法在自变量不多,特别是无显著性的自变量不多时可以使用。与一般多元回归相比,用逐步回归法求得的回归方程有如下优点:它所含的自变量个数较少,便于应用;它的剩余标准差也较小,方程的稳定性较好; 由于每步都作检验,因而保证了方程中的所有自变量都是有显著性的。逐步回归分析的主要用途是:
(1)建立一个自变量个数较少的多元线性回归方程。它和一般多元回归方程的用途一样,可用于描述某些因素与某一医学现象间的数量关系,疾病的预测预报,辅助诊断等等。
(2) 因素分析。它有助于从大量因素中把对某一医学现象作用显著的因素或因素组找出来,因此在病因分析、疗效分析中有着广泛的应用。但通常还须兼用“向前法”、“向后法”,并适当多采用几个F检验的界值水准,结合专业分析,从中选定比较正确的结果。
求回归方程的方法步骤如下:
设有含量为n的样本,对每个观察单位观察了m个自变量Xj(j=1,2,…m)和一个应变量Y(可记为Xm+1),得原始数据如表1。
表1 原始数据格式
观察单位 | 变 量 | X1 | X2 | ⋯ | Xm | Y=Xm+1 | ||||
1 | X11 | X12 | … | X1m | X1,m+1 | |||||
n | Xn1 | Xn2 | … | Xnm | Xn,m+1 |
1. 先规定一个F*值,作为引入或剔除自变量时进行F检验的界值。对于给定的显著性水准a来说,每一步作检验时的Fa(1,n-m′-1)值是不同的,f但由于样本含量n比引入自变量的个数m′大得多(一般在10倍以上),所以各步的m′虽然不同,但Fa(1,n-m′-1)值都近似相等。故为方便起见,可取一个定数F*作为F检验的标准。2. 计算每个变量的均数J、离均差平方和(LII、LJJ),每两个变量的离均差积和LIJ,以及相关系数RIJ,
并以求得的rij为元素列出原始相关矩阵R(0)(阵中rij(0)=rij):
以后每引入或剔除一个变量都计为一步运算。设R(0)经L步所得的R(L)为
对于每一步,R(L)均同样按式(2)变换成R(L+1)。设引入或剔除的变量为Xg(g为该变量的下标),按式(2)作变换Lg,则R(L)成R(L+1)时,两矩阵中的各元素rij,有如下关系式:
3. 选自变量。
(1) 引入未选量。按式(3)计算各未选量的偏回归平方和Vj(L+1),
找出其中最大者,记作Va(L+1),就它所对应的自变量Xa按式(4)作F检验:
式中m′为已引入变量的个数。当F1>F*时引入变量Xa,并对R(L)按式(2)作变换La,得R(L+1);当F1≤F*时挑选变量工作就此结束。
(2)剔除已选量。引入新变量后,对原先引入的已选量分别计算其偏回归平方和Vj(L):
找出Vj(L)中最小者,记作Vb(L)。就Vb(L)所对应的自变量Xb按式(6)作F检验。
当F2≤F*时,剔除Xb,并对R(L)按式(2)作变换Lb得R(L+1);下一步对其余已选量再按式(5)、(6)求Vj并作F检验,直到已选量中没有可剔除时为止;当F2>F*时,已选量都不能被剔除,于是再考虑从未选量中能否引入新变量。如此反复进行到第L步,若已选量都不能被剔除,未选量都不能引入时,逐步运算结束。
4. 求回归方程。由相关矩阵R(L)求得的回归方程
称为标准回归方程,式中b′j是标准偏回归系数,按式(7)求得。
b'j=rj.m+1(L)。(7)
实用中多元线性回归方程常用变量Xj的原单位,因此须再按式(8)求化成原单位后Xj的偏回归系数bj,
式中lm+1,m+1=lYY,即Y的离均差平方和,ljj为Xj的离均差平方和。回归方程的常数项按式(9)计算,
b0=-∑bjj,(9)
式中j为已选量的下标。于是得多元回归方程为
Ŷ=b0+∑bjXj。 (10)
5. 回归方程的线性假设检验。按式(11)作方差分析。
回归的剩余标准差s按式(12)计算。
其意义及用途见条目“多元线性回归”。
多元相关系数R按式(13)计算,R的意义、用途及假设检验见条目“多元线性相关”。
求得多元线性回归方程后,就可利用它来进行预测,参见条目“多元线性回归”。
例 某单位为了研究正常少年儿童的心象面积与性别、月龄、身高、体重、胸围的关系,调查了521名2.5~15岁的正常少儿,资料见表2,试用逐步回归法求预测心象面积的回归方程。
表2 521名正常儿童各项指标的部分记录
编号 | 性别* | 月龄 | 身高 | 体重 | 胸围 | 实测心象面积 |
1 | 1 | 32 | 95.5 | 14.0 | 53.5 | 49.64 |
520 | 0 | 176 | 156.0 | 55.0 | 83.0 | 94.60 |
*男记作1,女记作0
(1)规定F*值。本例n=521,估计可能选入4个自变量。对于给定的α=0.05,F0.05(1,516)≐3.86,故取F*=3.86。
(2)计算各变量的均数J与离均差平方和LJJ得:
j | 1 | 2 | 3 | 4 | 5 | 6 |
J | 0.4875 | 102.37 | 124.47 | 24.76 | 60.23 | 61.75 |
ljj | 130.17 | 1016518.26 | 218849.10 | 48820.54 | 29980.76 | 127402.29 |
以及离均差积和lij(略)。
计算相关系数rij,并以rij为元素列矩阵R(0)(rij(0)=rij),
(3)选自变量。
第一步: 选第一个自变量。对全部自变量按式(3)计算Vi(1)得
同理,V3(1)=0.781203,V4(1)=0.745530,V5(1)=0.723041。其中V3(1)最大即Vα,按式(4)作F检验。
=1853.06>F*,
故引入变量X3。对R(0)按式(2)作变换L2,此时g=3,L=0。
第二步:选第二个自变量。计算各未选量的Vj(2):V1(2)=0. 005523,V2(2)=0.000050,V(2)4=0.009755,V(2)5=0.010515,其中V5(2)最大,经F检验有显著性,故引入变量X5,对R(1)仍按式(2)作变换L5,这时g=5,L=1,得R(2)(略)。
第三步:由于新变量X5的引入方程,对原有变量X3应重新检验,为此计算V(2)3。按式(5)得
再按式(6)作F检验:
故X3不能剔除。于是考虑引入第三个自变量,计算各未选量的Vj(3):V1(3)=0.002888,V2(3)=0.000295,V4(3)=0.000928,其中V1(3)最大,经F检验有显著性,故引入X1,对R(2)作变换L1,这时g=1,L=2,得R(3)(略)。
第四步:由于X1的引入,对已选量X3、X5重作检验。计算得V3(3)=0.071558,V5(3)=0.007880,对其最小者作F检验,得
故原有已选量不能剔除。考虑引入第四个自变量,计算各未选量的Vj(4): V2(4)=0.000208,V4(4)=0.002046,其中V4(4)最大,经F检验有显著性,引入X4,对R(3)作变换L4,这时g=4,L=3,得R(4)(略)。
第五步:由于X4的引入,应对原有的X1、X2、X5重作检验,计算得V1(4)=0.004005,V3(4)=0.044834,V5(4)=0.000341,其中V5(4)最小。按式(6)作F检验,
故剔除XS。对R(4)仍按式(2)作变换L5,此时g=5,L=4,得R(5)(略)。
第六步:上步剔除了X5后,应考虑其余已选量X1、X3、X4还须剔除否。为此计算得V1(5) =0.005352,V3(5)=0.046192,V4(5)=0.009584,其中V1(5)最小。作F检验,得F2=13.59>F*。故已选量都不能剔除。再考虑未选量X2、X5能否选入。由于X5刚被剔除,可不考虑,为此计算V2(6)=0.000099,作F检验,得F1=0.25<F*。故不能引入X2。至此,方程外的变量不能进入,方程内的变量不能剔除,逐步运算到此结束。共选进了三个自变量: X1、X3、X4。兹节录R(5)中的最后一列:
r(5)16=0.073228,r(5)26=-0.002541,r(5)36=0.621366,
r(5)46=0.282975,r(5)56=0.004447,r(5)66=0.203686。
据式(7)及R(5)可得标准偏回归系数为b′1=r(5)16=0.0732 ,b′3=r(5)36=0.6214,b′4=r(5)46=0.2830。
再按式(8)换算成按原单位的偏回归系数,得
仿此,b3=0.474,b4=0.460。
按式(9),
b0=-b11 - B33-B44
=61.75-2.291 × 0.4875-0.474 × 124.47-0.460 × 24.76 =-9.755。
按式(10),得回归方程为
Ŷ=-9.755 + 2.291X1+0.474 X3 + 0.460X4,
即心象面积(cm)2=-9.755+2.291性别(男为1,女为0)+0.474身高(cm)+0.460体重(kg)。
对此方程作线性假设检验。列方差分析表(表3),表中SS、ν、MS及F值均按式(11)求得。查F界值表,得P值,按a=0.05水准,此方程有显著性,即方程有效。
表3 方差分析
变异来源 | SS | v | MS | F | P |
总 | 127402.29 | 520 |
|
|
|
回归 | 101452.22 | 3 | 33817.41 | 673.74 | <0.01 |
剩余 | 25950.06 | 517 | 50.19 |
|
|
方程的线性假设检验还可按式(13)求得多元相关系数
查F界值表得P<0.01,结论同上。
![]() |