样本率与总体率作比较的目的是推断样本率所代表的总体率π与某总体率π(常为理论值或长期积累的经验值)是否相等。应根据资料的不同情况,采用不同的假设检验方法: ①若π0很小,可用Poisson分布原理作检验(见条目“Poisson分布”); ②若π0不太靠近0或1时,可用二项分布原理作检验(见条目“二项分布”)。当样本含量n足够大时,二项分布逼近正态分布,若nπ0≥5且n(1-π0)≥5,这种近似是满意的,可用u检验或x2检验,也可用对数似然比检验或平方根纸作检验。u检验 按式(1)或式(2)计算统计量u值。
式中n为样本含量,X为样本阳性数,样本率p=X/n,π0为某总体率,0.5为连续性校正数,当n较大时可以省去,而|X-nπ0|≤0.5时不宜采用。算得u值后,查u界值表得P值,按所取检验水准作出推断结论。
x2检验 基于标准正态变量u的平方和服从x2分布,则由式(1)和式(2)可分别得出等价公式式(3)和式(4)。
式中A=X或n-X为实际频数(阳性数或阴性数),T=nπ0或n(1-π0)为理论数。若已知的不是总体率而是总体的或理论的阳性数与阴性数之比例 (如人群出生性比例,理论上近于1:1),则可由此比例推算出样本中理论的阳性数和阴性数,再由上述公式计算x2值。算得x2值后,以v=1查x2界值表得P值,按所取检验水准作出推断结论。
连续性校正 比如在一定条件下,二项分布近似于正态分布,但在利用这种近似原理作u检验时常须作连续性校正。因为二项分布是离散型分布,而正态分布是连续型分布。从概率图形来看,二项分布变量X(n例中的阳性例数,取整数)对应的概率是横轴上X处的高度,近似于正态变量X-1/2到X+1/2区间对应的正态曲线下的面积(即概率)。为此,在式(1)中采用了连续性校正数0.5,此法称为连续性校正,其必要性可用下表的实例来说明。
用正态分布连续性校正近似二项分布举例
π0 | n | 变量X | 确 切 | 按式(1)作校正 | 按式(2)不校正 | u | 概率 | u | 概率 | ||
0.5 | 10 | ≤2 | 0.0547 | 1.581 | 0.0569 | 1.897 | 0.0289 | ||||
0.1 | 50 | ≤2 | 0.1117 | 1.179 | 0.1192 | 1.414 | 0.0787 | ||||
0.5 | 40 | ≤14 | 0.0403 | 1.739 | 0.0410 | 1.897 | 0.0289 | ||||
0.2 | 100 | ≤14 | 0.0804 | 1.375 | 0.0846 | 1.500 | 0.0668 |
注 第(4)栏按条目“二项分布”式(4)、(5)算得,第(6)、(8)栏按条目“正态分布”式(5)算得。
由上表可见: 连续性校正后的概率比不校正的更接近确切概率;这种校正当n较小时更有意义,当概率P在检验水准α附近时尤为必要。
同样,在x2检验中,如后例,304例胃溃疡患者有96例发生胃出血,按式(4)求得x2=25.47; 若有97例出血,同样可按式(4)得x2=26.94;仿此,有98例出血得x2=28.45;有99例出血,得x2=30.00; 等等。由于原始数据为计数资料,是非连续的: 96,97,98,99,……显然相应的x2值: 25.47,26.94,28.45,30.00,……组成离散型分布。而x2界值表的依据是连续的理论分布,故由式(4) 算出的x2值,查x2界值表所得概率偏小。为补救此缺点,英国统计学家F. Yates(1934年)提出用实际频数与理论频数相差的绝对值减0.5计算x2值的连续性校正法[见式(3)]。x2连续性校正仅用于自由度v=1时,尤其是小样本。当v≥2时,一般不作校正。应特别注意: 当几个x2值相加时,须用未校正的x2值相加,而不能用校正的x2值相加。
例 据临床经验认为,一般的胃溃疡病患者有20%会出现胃出血症状。某医院观察了304例65岁以上的胃溃疡病患者,其中96例发生胃出血,占31.58%,问老年患者是否较一般患者易出血?
(1) u检验。
H0: π=π0,
H1: π>π0(因老年患者胃出血率不会低于一般人)。
单侧a=0.05。
查u界值表得P<0.01,按a=0.05水准拒绝H0,接受H1,故可认为老年胃溃疡患者较一般患者容易出血。
(2) x2检验。H0、H1及α同上。
本例实际频数:有胃出血者A=96,无胃出血者A=304-96=208;理论频数:有胃出血者T=304×0.2=60.8,无胃出血者
T=304-60.8=243.2,代入式(4):
当v=1时,xα2=uα2,单侧u0.052=(1.6449)2 = 2.71 (即单侧α=0.05时x2的界值),今25.47>2.71,故P<0.05,按α=0.05水准拒绝H0,接受H1,结论同上。
![]() |