将两个或多个样本构成比作比较的目的是推断各样本分别代表的总体构成比是否相同。这类资料的特点是基本数据有R行(样本数,R≥2),C列(分组数,C≥3,且各样本的分组相同),组成R×C列联表,如后例为2×4表,表示有二个样本,各分为四组。R×C列联表常用x2检验和对数似然比检验,若为等级分组资料宜用秩和检验(见条目 “多个样本比较的秩和检验”) 或Ridit分析(见条目“Ridit分析”)。
x2检验 按式(1)或式(2)计算统计量x2值。
式中A为每格的实际频数; T为按检验假设: 各总体的构成比相同,均等于合计的构成比时,算出的理论频数;nR、nC分别为某实际频数所在行R、列C的合计; n为各样本含量之总和。式(2)直接用实际频数计算,较为简捷。
x2检验要求理论频数不宜太小,否则将导致分析的偏性。一般认为R×C列联表中不宜有1/5以上的格子的理论频数小于5,或有一个理论频数小于1。但也有人认为这个限制过严,R. C. Lewontin和J. Felsenstein(1965),M. J. Slakter (1966) 等人认为可有多个理论频数小到1而对分析影响不大。长期来,对理论频数太小有三种处理办法:(1)最好增加样本含量以增大理论频数。(2)删去上述理论频数太小的行或列。(3)将太小理论频数所在行或列与性质相近的邻行或邻列中的实际频数合并,使重新计算的理论频数增大。须知后两法可能会损失信息,也会损害样本的随机性,不同的合并方式有可能影响推断结论,故不宜作为常规方法。特别是合并质量分组资料尤当慎重,不能把不同性质的实际频数合并,如把属于A、B血型的人数合并是不合理的。
对数似然比检验 用式(4)或式(5)计算统计量G值。G近于x2分布。如用函数型电子计算器,计算G较x2简便。
式中A、nR、nC、n的意义同x2检验,v按式(3)计算。算得x2值(或G值)及v后,查x2界值表得P值,按所取检验水准作出推断结论。当拒绝检验假设,结论是各总体的构成比不同,只能认为各总体构成比之间总的说来是有差别的,但不能说明它们彼此间都有差别,或某两个构成比间有差别。
例 试据下表资料,说明我国南北方鼻咽癌患者(按籍贯分)的病理组织学分类的构成比有无差别。
我国南北方鼻咽癌患者病理组织学分类构成
地 域 | 淋巴上皮癌 | 未分化癌 | 鳞癌 | 其他 | 合计 |
南方四省 | 71 | 6 | 16 | 18 | 111 |
合 计 | 160 | 24 | 38 | 69 | 291 |
H0:南北方鼻咽癌患者的分类构成比相同,H1:南北方鼻咽癌患者的分类构成比不同。
α=0.05。
(1) x2检验。按式(2)及式(3),得
查x2界值表,0.05>P>0.025,按α=0.05水准拒绝H0,接受H1,说明南北方鼻咽癌患者的病理组织学分类构成比不同,南方四省淋巴上皮癌患者的比重高于东北三省。
(2)对数似然比检验。按式(4)及式(3),
G=2[71ln 71+6ln 6+…+51ln 51-111 ln 111-180ln 180-160ln 160-24ln 24-38ln 38-69 ln 69+291 ln 291]=9.19,
v=(2-1)(4-1)=3。
查x2界值表,0.05>P>0.025,结论同x2检验。
![]() |