样本直线回归方程中,回归系数b和截距a是总体回归系数β和截距a*(注意勿与检验水准a相混)的估计值。即使实验条件不变,b与a也会有抽样波动。同理,样本回归值 Ŷ 及变量值Y亦有抽样波动。 为了说明回归方程的稳定性,就须对β、 a*和μŶ(总体回归值)、Y作出区间估计,也就是对总体回归直线作出区间估计。β及a*的区间估计 方法步骤如下:
(1) 计算样本直线回归方程,并作假设检验 (见条目“直线回归”)。若认为存在直线关系,则作区间估计,否则不必进行。
(2) 分别按式(1) 及式(2) 计算回归系数b的标准误sb及截距a的标准误sa。
式中sY·X 为剩余标准差,lXX为变量X的离均差平方和,n为样本含量,为样本均数。
(3)查t界值表得ta(n-2)值,分别按式(3)及式(4)计算可信度为1-a时,β及a*的可信区间:
β为 (b-ta(n-2)sb,b+ta(n-2)sb),(3)
a*为 (a-ta(n-2)sa,a+ta(n-2)sa)。(4) 可信度相同时,sb与sa愈小,β与a*的可信区间就愈小,回归方程就稳定。在实际使用回归方程时,愈稳定愈好。
μŶ及Y的区间估计 方法步骤如下:
(1) 同β及a*的区间估计步骤(1)。
(2)按观察值X的范围,选定若干Xi值,列出计算表(如下表)。 将Xi代入回归方程求得的回归值Ŷi是与Xi相应的个体值Yi的均数,而Yi值分布在均数Yi的上下,Ŷi的标准误sŶi(简记为sŶ)按式(5)计算,
理论上,Yi服从以μ(未知时,以Ŷi作为估计值)为均数,σYi [未知时,以sYi (简记为sY)作为估计值]为标准差的正态分布。sY按式(6)计算,
当n相当大, Xi离较近时,sY≐sY·X。
(3)查t界值表得ta(n-2)值,分别按式(7)计算可信度为1-a时,μŶ的可信区间;按式(8)计算Y的1-a容许区间。
μŶ的可信区间为 (Ŷ-ta(n-2)sŶ, Ŷ+ta(n-2)sŶ), (7)Y的容许区间为 (Ŷ-ta(n-2)sY, Ŷ+ta(n-2)sY)。 (8)式(8)算出的容许区间,医学上常用作给定X值时,相应Y值的正常值范围。 若n相当大,xi离较近时,则此范围近似的为
(4)绘回归直线, 并将上述求得的各X值对应的μŶ、Y区间的上限值、下限值画四条曲线 (注意不是直线),如图。 离回归直线近的两条曲线间是 μŶ的1-a可信区间,即总体回归直线的可能范围; 两条虚线间是各X值相应的Y值的1-a容许区间。理论上有5%的点子在两条虚线以外和正好落在线上。
例 某地18~25岁女青年50人的体重与体表面积资料(见图)的初步计算结果如下:
经直线回归方程的假设检验,体重与体表面积之间存在直线关系。试估计总体回归系数β与总体回归值μŶ的95%可信区间,以及个体值Y的95%容许区间。
求β的95%可信区间。今a=0.05,n=50,v=50-2=48,查t界值表,t0.05(50-2) = 2.011,由式(3)得
(0.01547-2.011×0.00097,0.01547+2.011×0.00097)=(0.0135,0.0174)。
故β的95%可信区间为0.0135~0.0174m2/kg。
求μŶ的95%可信区间与Y的95%容许区间。 选定Xi值,计算如表。
μŶ的可信区间及Y的容许区间的计算
Xi | Xi- | Ŷi | SŶi | ŶI±T0.05(48)SŶI | SYi | ŶI±T0.05(45)SYI | 下 限 | 上 限 | 下 限 | 上 限 | ||
40 | -12.56 | 1.2544 | 0.0132 | 1.2279 | 1.2809 | 0.0377 | 1.1786 | 1.3302 | ||||
52 | -0.56 | 1.4400 | 0.0050 | 1.4299 | 1.4501 | 0.0357 | 1.3682 | 1.5118 | ||||
60 | 7.44 | 1.5638 | 0.0088 | 1.5461 | 1.5815 | 0.0365 | 1.4904 | 1.6372 |
如表中第一横行数字的计算过程为
Xi=40, Xi-=40-52.56=-12.56,Ŷi=0.63560+0.01547 × 40=1.2544。
按式(5)~(8)得
μŶi的95%可信区间为
(1.2544-2.011 × 0.0132,1.2544 +2.011×0.0132)=(1.2279,1.2809)。Yi的95%容许区间为(1.2544-2.011 × 0.0377,1.2544 +2.011 × 0.0377)=(1.1786,1.3302)。
其余横行的计算仿此。
分别将表中第(1)、(5)栏,第(1)、(6)栏;第(1)、(8)栏,第(1)、9)栏数据标在方格坐标纸上,得图中四条曲线。实线范围内为uŶ的95%可信区间,虚线范围内为该地18~25岁女青年体表面积个体值的95%容许区间。
uŶ的95%可信区间与Y的95%容许区间
![]() |