协方差分析是把线性回归与方差分析结合起来,检验两个或多个修正均数间有无差别的方法。例如在营养研究中,不考虑动物食量的差别,直接用方差分析来比较不同饲料组动物所增体重的均数,以评价不同饲料的营养价值是不够恰当的。因为动物体重的增加,除与食物的营养价值有关外,还与各组动物的食量有关。而动物食量的多少又往往未加控制。若用直线回归的方法找出食量与所增体重的关系,求得当食量化为相等时(即扣除食量的影响),各饲料组动物所增体重的修正均数,然后再用方差分析检验各修正均数间有无差别,这才比较合理。又如比较各种职业人群的血压时,应把年龄化为相等,再作比较。这类问题,根据实验设计的不同,有完全随机设计、配伍组设计、拉丁方设计和析因设计等资料的协方差分析,其基本思想相同。本条目仅介绍前面两种,并以二元线性回归为例说明多元协方差分析。
应用协方差分析的条件是:①理论上要求各组资料(样本)都来自方差相同的正态总体;②各组的总体直线回归系数βi相等,且都不为0。因此,资料用协方差分析前须先进行方差齐性检验和回归系数的假设检验,若符合上述两个条件,或经变量变换后符合上述条件,方可进行协方差分析,否则不宜用此法。
完全随机(或配伍组)设计资料的协方差分析 方法步骤如下:
(1) 计算各变量值之和∑X、∑Y,平方和∑X2、∑Y2,及积和∑XY,如表1或表3下半部。
(2) 计算总变异的离均差平方和、积和及自由度,按式(1)~(3)。
式中∑X、∑Y、∑XY是各组X、Y、XY的总和,N为总例数,v为自由度。lXY/v称为协方差,它是两变量联合变异的度量。
(3) 计算各处理组(或配伍组)间的离均差平方和、积和及自由度,按式(4)~(6)。
式中∑Xi或∑Yi为第i组变量值X或Y的和,ni为第i组的例数,k为组数,其他符号意义同前。
(4) 将上述第(2)、(3)步的计算结果列入协方差分析表,如表2或表4左侧部分。由总变异的离均差平方和、积和及自由度减处理组(或配伍组)间相应各数,得组内(或误差)的离均差平方和、积和及自由度。
(5) 求回归的剩余平方和∑(Y-Ŷ)2及自由度v。 列入协方差分析表,如表2或表4右侧部分。表2“剩余”部分:平方和栏中,总的及组内(或误差)的数字分别按式(7)计算,
总的减组内的即为修正均数间的剩余平方和。自由度栏中,总的及组内数字分别为左侧相应部分的自由度减1,如总的v=39-1=38,组内的v=38-1=37,总的减组内的即为修正均数间的自由度v=38-37=1。
在配伍组设计中,总变异扣除了配伍组间的变异即处理组间的变异与误差的变异,因此,“组间+误差”的剩余与完全随机设计中的总剩余相当,如表4剩余部分的“饲料+误差”行与表2剩余部分的总变异行相当。
(6)分别求修正均数间及组内的剩余均方MS (即剩余平方和除以自由度之商)。再按式(8)求F值。
(7)用式(8)中分子、分母两均方的自由度查F界值表得P值,按所取检验水准作出推断结论。若修正均数间有差别,必要时再作两两比较。
(8)求各修正均数。先按式(9)计算公共回归系数bc,再按式(10)计算各修正均数'i。
式中I、 I分别为第I组变量X、 Y的均数,为总均数。
(9)修正均数间的两两比较。见条目“多个样本均数间两两比较”,用q检验,唯统计量q值的计算按式(11),
式中'A、
'B为任两修正均数, 分母为其差的标准误,sY2·X为组内剩余方差,n0为每组平均例数,α为对比的两均数间包含的组数,意义详见条目“多个样本均数间两两比较”。求得q值后,按“剩余”中组内自由度及α查q界值表得P值,按所取检验水准作出推断结论。
例1 表1中男性运动员和大学生的平均肺活量分别为4399cm3及3667.5cm3,经假设检验有差别。但肺活量的大小与身高有关,一般运动员的身高高于大学生。为进一步分析肺活量的差异是否由于体育锻炼所致,试进行协方差分析。
表1 某地20岁男性运动员及大学生的身高(cm) X与肺活量(cm8) Y
| 运 动 员 | 大 学 生 | 合 计 | X1 | Y1 | X2 | Y2 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 184.9 | 4300 | 168.7 | 3450 |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
n | 20 | 20 | 40 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
∑X | 3563.5 |
| 3409.8 |
| 6973.3 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
∑Y |
| 87980 |
| 73350 | 161330 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
∑X2 | 635867.81 |
| 581653.8 |
| 1217521.61 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
∑Y2 |
| 392398400 |
| 270917500 | 663315900 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
∑XY | 15710815 | 12515760 | 28226575 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 178.175 |
| 170.49 |
| 174.3325 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
| 4399 |
| 3667.5 | 4033.25 |
变异来源 | v | 离均差平方和及积和 | 剩 余 | lXX | lXY | lYY | v | ∑(Y-Ŷ)2 | MS | ||||
总 | 39 | 1848.78775 | 101512.775 | 12631677.5 | 38 | 7057839.46 |
| ||||||
组 内 | 38 | 1258.19550 | 45297.000 | 7280755.0 | 37 | 5649992.365 | 152702.4964 | ||||||
修正均数间 |
|
|
|
| 1 | 1407847.095 | 1407847.095 |
按式(7)、(8)求剩余平方和、自由度、均方(结果列入表2右侧部分)及F值,计算如下:
查F界值表得P<0.01,按a=0.05水准拒绝H0 ,接受H1,可以认为两组肺活量均数在消除身高因素的影响后有差别,运动员的肺活量大于大学生。
按式(9)、(10)求两组肺活量的修正均数为:
′运=4399-36.0016(178.175-174.3325)=4260.66,
′学=3667.5-36.0016(170.49-174.3325)=3805.84。
例2 研究核黄素缺乏对蛋白质利用的影响,按配伍组设计将36只大白鼠分成12个配伍组,再将每个配伍组的3只大白鼠随机分入三个饲料组。第一组喂以缺乏核黄素饲料; 第二组喂以含核黄素饲料,限制食量使与第一组食量相近; 第三组喂以含核黄素饲料,但不限制食量。三组大白鼠之进食量与所增体重见表3,试比较三组白鼠所增体重的修正均数间有无差别。
表3 三组大白鼠之进食量(g) X与所增体重 (g)Y
H0:所增体重的三个总体修正均数相等,
H1:三个总体修正均数不等或不全相等。
α=0.05。
初步计算结果见表3下半部。按式(1)~(6)得
表4 表3资料的协方差分析
变异来源 | v | 离均差平方和及积和 | 剩 余 | lXX | lXY | lYY | v | ∑(Y-Ŷ)2 | MS | ||||
总 | 35 | 508150.076 | 187349.144 | 75786.356 |
|
|
| ||||||
误 差 | 22 | 36943.246 | 15102.873 | 8399.613 | 21 | 2225.36 | 105.97 | ||||||
修正均数间 |
|
|
|
| 2 | 463.95 | 231.98 |
按式(7)、(8)求剩余平方和、自由度、均方(结果列入表4右侧部分)及F值计算如下:
查F界值表得P>0.05,按α=0.05水准不拒绝H0,虽然三组的所增体重均数(37.1,45.7,118.7)看起来相差较大,但经检验不能认为三组所增体重的修正均数间有差别。三个修正均数按式(9)、(10)为:
'3=118.74-0.4088(492.40-346.42)=59.06。
多元协方差分析 若实验中需要将两个或两个以上的因素都化为相等,然后分析某变量修正均数的差别,而这些因素与某变量呈线性相关,那么可进行多元协方差分析。如欲将各组动物的食量与原始体重都化为相等,然后比较各组所增体重的修正均数间有无差别,则先用多元线性回归的方法,将食量、原始体重与所增体重的关系找出来,求出当食量、原始体重化为相等时,各饲料组所增体重的修正均数,然后用方差分析检验各修正均数间有无差别。现以二元回归为例说明其计算步骤如下:
(1)计算各变量值的总和、平方和及积和,如表5。
(2) 计算总变异的离均差平方和及积和,按式 (1)~(3);计算组间离均差平方和及积和,按式(4)~(6);两相应部分相减,得组内离均差平方和及积和。如表6。总的自由度为总例数减1,组间自由度为组数减1,组内自由度为二者之差。
(3)计算总变异的偏回归系数b1、b2及决定系数R2,按式(12)~(14);同法计算组内的b1、b2及R2。
(4) 求剩余平方和∑(Y-Ŷ)2及自由度v。 列多元协方差分析表如表7右侧部分。其中总平方和及组内平方和分别按式(15)计算,
∑(Y-Ŷ)2=(1-R2)lYY。 (15)
自由度为左侧相应部分的自由度减2;剩余平方和中总的减组内的即得修正均数间剩余平方和,自由度亦为相应两自由度之差。
(5) 分别求修正均数间及组内的剩余均方MS (即剩余平方和除以自由度之商)。再按式(8)求F值,查F界值表得P值按所取检验水准作出推断结论。
(6) 按式 (16) 求各修正均数′i, 必要时作两两比较。
式中b1及b2为组内偏回归系数。
例3 试根据表5列出的初步计算结果,将食量和原始体重都化为相等,再比较三组大白鼠所增体重的修正均数。
表5 三组大白鼠的食量、原始体重与增重的初步计算结果
饲料组 | 动物数 | 食 量 | 原始体重 | 所增体重 | ∑X1 | ∑X21 | ∑X2 | ∑X22 | ∑Y | ∑Y2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
第一组 | 12 | 3266.8 | 914414.52 | 1012.2 | 86395.94 | 445.2 | 21204.72 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
合 计 | 36 | 12471.1 | 4828381.61 | 3145.7 | 278735.19 | 2418.5 | 238262.53 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
| ∑X1X2 | ∑X1Y | ∑X2Y | 第一组 |
| 277830.08 | 130517.23 | 37652.71 | 合 计 |
| 1109547.68 | 1025164.57 | 219937.76 |
| 离 均 差 平 方 和 | 离 均 差 积 和 | l11 | l22 | lYY | l12 | l1Y | l2Y | ||||
总 | 508150.08 | 3862.18 | 75786.36 | 19816.03 | 187349.14 | 8607.886 |
按式(12)~(15):
表7 表5资料的协方差分析
变异来源 | v | lYY | R2 | 剩 余 | v | ∑(Y-Ŷ)2 | MS | ||
总 | 35 | 75786.36 | 0.9188 | 33 | 6153.85 |
| |||
组 内 | 33 | 27488.73 | 0.7869 | 31 | 5857.85 | 188.96 | |||
修正均数间 |
|
|
| 2 | 296.00 | 148.00 |
今修正均数间的剩余均方小于组内的剩余均方,则按式(8)计算的F值必小于1,故知P>0.05,按α=0.05水准不拒绝H0,说明将食量及初重化为相等后,不能认为三组所增体重的修正均数间有差别。按表5资料及式(16)计算三个修正均数为:'1=37.10-0.3854(272.23-346.42)-0.2566(84.35-87.38)=66.47,
'2= 45.70-0.3854(274.62-346.42)-0.2566(88.46-87.38)=73.09,
'3=118.74-0.3854(492.40-346.42)-0.2566(89.33-87.38)=61.98。
![]() |