公卫百科首页>> 公卫百科>> 医学统计 >>多元线性回归

多元线性回归
 
摘要: 多元线性回归是研究一个变量和另一些变量间线性关系的统计分析方法。若Y随X1,X2,…,Xm的改变而改变,则称Y为应变量,X1,X2,…,Xm为自变量。



多元线性回归是研究一个变量和另一些变量间线性关系的统计分析方法。若Y随X1,X2,…,Xm的改变而改变,则称Y为应变量,X1,X2,…,Xm为自变量。如人体的表面积随身高、体重而改变,则身高、体重为自变量,体表面积为应变量。应变量亦称因变量。

用途: ①用多元线性回归方程描述某些因素与某一医学现象间的数量关系,如气温、湿度与某病发病率的关系; ②分析某些因素对疾病发生、发展及预后的影响程度,如某些致癌因子在肿瘤发病中的相对重要性;③利用多元线性回归方程进行疾病的预测预报,某医学现象的回顾推断,计量诊断,或缩小某诊断指标的变异程度,提高其诊断效果等等。

多元线性回归方程的一般形式为

Y=b0+b1X1+b2X2+…+biXi+…+bmXm,(1)式中Ŷ为应变量的估计值; Xi为第i个自变量, i=1,2,…,m,m为自变量的个数; bi为Xi的偏回归系数,即在其他自变量固定的条件下,Xi改变一个单位时应变量的改变量; b0为回归方程的常项数。求多元线性回归方程的基本步骤:

(1)计算各自变量及应变量的n个观察值的∑Xi,∑Xi2,ΣY,∑Y2,ΣXiY,∑XiXj(i,j=1,2,…,m;i≠j)。

(2)解下列正规方程组,求式(1)中的各偏回归系数bi

解方程组(2)的方法很多,这里通过求逆矩阵的方法来解,因为逆矩阵中的元素在以后的假设检验中要用到。令

式中X、Y为相应观察值的资料矩阵,式中X12为X2的第1个观察值,余类推。

式(2)中的系数矩阵A及常数项矩阵B分别为

根据线性代数求逆矩阵的方法,可得A的逆矩阵A-1,记作C,即

由此得各偏回归系数

例1 某单位1980年研究正常女性成人肺功能,其中测得20~49岁204例资料如下:

编号

FEV1(L)
(Y)

年龄(岁)
(X1)

身高(cm)
(X2)

FVC(L)
(X3)

1
2
3

2.542
2.331
2.690

20
20
20

151.5
154.5
155.0

3.116
2.464
2.956

204

1.697

49

164.4

2.256

试求以年龄、身高、用力肺活量(FVC)为自变量,以第一秒用力肺活量(FEV1)为应变量的多元线性回归方程。

根据式(3)初步算得矩阵A、B的各元素:

系数矩阵A和常数项矩阵B分别为

于是得回归方程

即: 第一秒用力肺活量(L)=0.3666-0.0108年龄(岁)+0.0008身高(cm)+0.8080用力肺活量(L)。

回归方程的线性假设检验 应变量Y与m个自变量间是否存在线性回归关系,或者说它们的线性回归关系有无显著性,可用方差分析法来检验。可以证明,应变量的总的离均差平方和可以分解为回归平方和与剩余平方和两部分,即

检验假设H0: β1=0,β2=0,…βm=0,即总体的所有偏回归系数βi均为零。方差分析时按式(8)计算统计量F值。

式中m及(n-m-1)分别为SS的自由度v回及SS的自由度v。算得F值后,查F界值表得P值,按所取检验水准作出推断结论。若拒绝H0,接受H1,可以认为存在线性回归关系。

偏回归系数的假设检验 Y与Xi间存在线性回归关系是就总的情况来说的,并不意味着每个自变量对应变量都有线性关系。可能部分自变量与Y有线性关系,部分却没有。因此,尚需要对每个自变量进行假设检验,其检验假设是H0:βi=0。方法是t检验。

称为剩余标准差,它可用来衡量多元线性回归所描述的规律性强不强,利用回归方程来推算或预测应变量的效果好不好。cii是A的逆矩阵C中对角线上的元素。

如所计算得的m个ti值中有一个或几个小于tα(n-m-1)时,相应的自变量Xi就被认为在方程中不起什么作用,应先把最小的与ti值相应的Xi从方程中剔除出去,然后重新建立新的回归方程,再对新的偏回归系数进行检验,直到方程内的偏回归系数都有显著性时为止。

例2 对例1所求得的回归方程作线性假设检验,若结果有显著性,则进一步作偏回归系数的假设检验;需要时,重新建立新的回归方程,再对新方程作线性假设检验;直到方程内的偏回归系数都有显著性时为止。

(1)例1所得回归方程的线性假设检验。

H0: β1=β2=β3=0,

H1: βi (i=1,2,3)不为零或不均为零。

α=0.05。

按式(5)~(8),由例1资料,

查F界值表,P<0.01,按α=0.05水准拒绝H0,接受H1,表明例1的回归方程有显著性,故可认为方程是有效的。

(2)偏回归系数的假设检验。按式(9)、(10)得:

按α=0.05水准,可认为X1、X3与Y有线性关系,而X2没有。

(3)将X2剔除,重新建立新的回归方程。仍用逆矩阵法,系数矩阵A与常数项矩阵B为

即: 第一秒用力肺活量(L)=0.4759-0.0108年龄(岁)+0.8142用力肺活量(L)。

(4)对新方程进行假设检验。仍按式(8)得F=487.56>F0.05201,说明Y与X1、X3有线性关系。

(5)对两个偏回归系数b1及b3分别进行检验。按式(9)得t1=7.068,t3=24.317。按α=0.05水准,可认为Y与X1和X3都有线性关系。这样,建立的新方程已符合要求。

利用回归方程进行预测 有了回归方程,便可作下列预测:

(1)将各自变量的已知值代入回归方程便可求得应变量的估计值,即预测值Y。

(2) 按式(11)、 (12)可预测Y的总体均数μŶ的可信区间。

式中X′g表示某受试者各自变量观察值组成的行向量,如例3,

X′g=(1 38 2.6027)。

(3)按式(13)、(14)预测个体值Y的容许区间,可用于确定正常值范围或质量控制。

当n充分大, 且各Xi值分别接近其i时, 根式近于1 ,则SY可近似地用SY·12…m来代替。

例3 今有一女性,38岁,测得身高154cm,用力肺活量2.6027L,第一秒用力肺活量1.6353L,问她的第一秒用力肺活量正常否?

先由例2最后所得的新方程,计算得第一秒用力肺活量的估计值(预测值)为

在例2计算中已求得剩余标准差SY·13=0.179278,按式(14),得

第一秒用力肺活量的正常值范围只以过低为异常,因此,查t界值表,单侧t0.05,201=1.653,于是按式(13)得个体值Y的单侧95%下限为

2.1846-1.653(0.1802)=1.8867(L)。

该女性实测的第一秒用力肺活量为1.6353<1.8867,故可认为低于正常人。

本例若用SY·12…m=0.1793来近似地代替SY,仍按式(13),则

2.1846-1.653(0.1793)=1.8882(L),

所得结论相同。

发表评价

词条信息

  • 浏览次数:8947 次
  • 发布时间: 2013-01-06
  • 更新时间: 2013-01-06

参与评价:

  • 词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
热门标签

中国疾病预防控制中心 版权所有 京ICP备11024750号-12
中国疾控中心信息中心 内容管理与技术支持 建议使用1024*768 分辨率,IE8.0以上
地址:北京市昌平区昌百路155号 邮编:102206