公卫百科首页>> 公卫百科>> 医学统计 >>总体回归直线的估计

总体回归直线的估计
 
摘要: 样本直线回归方程中,回归系数b和截距a是总体回归系数β和截距a*(注意勿与检验水准a相混)的估计值。即使实验条件不变,b与a也会有抽样波动。



样本直线回归方程中,回归系数b和截距a是总体回归系数β和截距a*(注意勿与检验水准a相混)的估计值。即使实验条件不变,b与a也会有抽样波动。同理,样本回归值 Ŷ 及变量值Y亦有抽样波动。 为了说明回归方程的稳定性,就须对β、 a*和μŶ(总体回归值)、Y作出区间估计,也就是对总体回归直线作出区间估计。β及a*的区间估计 方法步骤如下:

(1) 计算样本直线回归方程,并作假设检验 (见条目“直线回归”)。若认为存在直线关系,则作区间估计,否则不必进行。

(2) 分别按式(1) 及式(2) 计算回归系数b的标准误sb及截距a的标准误sa。

式中sY·X 为剩余标准差,lXX为变量X的离均差平方和,n为样本含量,为样本均数。

(3)查t界值表得ta(n-2)值,分别按式(3)及式(4)计算可信度为1-a时,β及a*的可信区间:

β为 (b-ta(n-2)sb,b+ta(n-2)sb),(3)

a*为 (a-ta(n-2)sa,a+ta(n-2)sa)。(4) 可信度相同时,sb与sa愈小,β与a*的可信区间就愈小,回归方程就稳定。在实际使用回归方程时,愈稳定愈好。

μŶ及Y的区间估计 方法步骤如下:

(1) 同β及a*的区间估计步骤(1)。

(2)按观察值X的范围,选定若干Xi值,列出计算表(如下表)。 将Xi代入回归方程求得的回归值Ŷi是与Xi相应的个体值Yi的均数,而Yi值分布在均数Yi的上下,Ŷi的标准误sŶi(简记为sŶ)按式(5)计算,

理论上,Yi服从以μ(未知时,以Ŷi作为估计值)为均数,σYi [未知时,以sYi (简记为sY)作为估计值]为标准差的正态分布。sY按式(6)计算,

当n相当大, Xi离较近时,sY≐sY·X。

(3)查t界值表得ta(n-2)值,分别按式(7)计算可信度为1-a时,μŶ的可信区间;按式(8)计算Y的1-a容许区间。

μŶ的可信区间为 (Ŷ-ta(n-2)sŶ, Ŷ+ta(n-2)sŶ), (7)Y的容许区间为 (Ŷ-ta(n-2)sY, Ŷ+ta(n-2)sY)。 (8)式(8)算出的容许区间,医学上常用作给定X值时,相应Y值的正常值范围。 若n相当大,xi较近时,则此范围近似的为

(4)绘回归直线, 并将上述求得的各X值对应的μŶ、Y区间的上限值、下限值画四条曲线 (注意不是直线),如图。 离回归直线近的两条曲线间是 μŶ的1-a可信区间,即总体回归直线的可能范围; 两条虚线间是各X值相应的Y值的1-a容许区间。理论上有5%的点子在两条虚线以外和正好落在线上。

例 某地18~25岁女青年50人的体重与体表面积资料(见图)的初步计算结果如下:

经直线回归方程的假设检验,体重与体表面积之间存在直线关系。试估计总体回归系数β与总体回归值μŶ的95%可信区间,以及个体值Y的95%容许区间。

求β的95%可信区间。今a=0.05,n=50,v=50-2=48,查t界值表,t0.05(50-2) = 2.011,由式(3)得

(0.01547-2.011×0.00097,0.01547+2.011×0.00097)=(0.0135,0.0174)。

故β的95%可信区间为0.0135~0.0174m2/kg。

求μŶ的95%可信区间与Y的95%容许区间。 选定Xi值,计算如表。

μŶ的可信区间及Y的容许区间的计算

Xi
(1)

Xi-
(2)

Ŷi
(3)

SŶi
(4)

ŶI±T0.05(48)SŶI

SYi
(7)

ŶI±T0.05(45)SYI

下 限
(5)

上 限
(6)

下 限
(8)

上 限
(9)

40
42
44

-12.56
-10.56
-8.56

1.2544
1.2854
1.3163

0.0132
0.0114
0.0097

1.2279
1.2625
1.2968

1.2809
1.3083
1.3358

0.0377
0.0372
0.0367

1.1786
1.2106
1.2425

1.3302
1.3602
1.3901

52

-0.56

1.4400

0.0050

1.4299

1.4501

0.0357

1.3682

1.5118

60
62
64

7.44
9.44
11.44

1.5638
1.5947
1.6257

0.0088
0.0104
0.0122

1.5461
1.5738
1.6012

1.5815
1.6156
1.6502

0.0365
0.0369
0.0374

1.4904
1.5205
1.5505

1.6372
1.6689
1.7009

如表中第一横行数字的计算过程为

Xi=40, Xi-=40-52.56=-12.56,Ŷi=0.63560+0.01547 × 40=1.2544。

按式(5)~(8)得

μŶi的95%可信区间为

(1.2544-2.011 × 0.0132,1.2544 +2.011×0.0132)=(1.2279,1.2809)。Yi的95%容许区间为(1.2544-2.011 × 0.0377,1.2544 +2.011 × 0.0377)=(1.1786,1.3302)。

其余横行的计算仿此。

分别将表中第(1)、(5)栏,第(1)、(6)栏;第(1)、(8)栏,第(1)、9)栏数据标在方格坐标纸上,得图中四条曲线。实线范围内为uŶ的95%可信区间,虚线范围内为该地18~25岁女青年体表面积个体值的95%容许区间。

uŶ的95%可信区间与Y的95%容许区间

发表评价

词条信息

  • 浏览次数:5862 次
  • 发布时间: 2013-01-06
  • 更新时间: 2013-01-06

参与评价:

  • 词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
热门标签

中国疾病预防控制中心 版权所有 京ICP备11024750
中国疾控中心信息中心 内容管理与技术支持 建议使用1024*768 分辨率,IE8.0以上
地址:北京市昌平区昌百路155号 邮编:102206 热线电话:13911841040