本法是根据两样本的观察值混合由小到大排列后,以非交叉重叠部分的多少来推断两总体的位置 (即变量值的倾向性)或变异度有无差别。检验假设H0为两样本分别代表的两总体的分布相同,备择假设H1为两总体的位置(中心位置或一般位置)不同或变异度不同。这是一种快速的检验方法,适用于计量资料或顺序资料。
非交叉重叠部分观察值的个数称为超过数。一样本观察值中小于另一样本最小值的个数称为左侧超过数,而大于另一样本最大值的个数称为右侧超过数。左右侧超过数可能分属于两样本,如图1,也可能属于同一样本,如图2。
图1 超过数分属于两样本示意
图2 超过数属于同一样本示意
两样本的中心位置比较[芳贺敏郎 (T. Haga),1960]方法步骤如下:
(1) 将两样本观察值按上述规定排列,并计算左、右侧超过数。
(2) 求统计量S值。当左、右侧超过数属于不同样本时,S等于两侧超过数之和;属于同一样本时,S等于两侧超过数之差(取绝对值)。
(3) 求得S值后,按两样本的含量n1与n2 (取n1≤n2)及所取检验水准a查表1,若S≥Sa,则P<a;若S<Sa,则P>a。由P值作出推断结论。
当n1或n2超出表1范围时,可按式(1)或式(2)直接计算单侧P值(即大于及等于S的累计概率),取双侧时P值应2倍之。
例1 铅作业与非铅作业工人的血铅值(μg/100g)如下,问两
表1 两中心位置差别检验用S界值表
P(1)=0.025,P(2)=0.05; n1≤n2
n2 | n1 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 25 | 30 | 35 | 40 | 50 | |||||||||||||||||||||
4 | 6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
5 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
6 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
7 | 7 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
8 | 8 | 7 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
9 | 8 | 8 | 7 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
10 | 9 | 8 | 8 | 7 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
11 | 9 | 8 | 8 | 8 | 7 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
12 | 10 | 9 | 8 | 8 | 8 | 7 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
13 | 10 | 9 | 9 | 8 | 8 | 8 | 7 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
14 | 10 | 10 | 9 | 8 | 8 | 8 | 8 | 8 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
15 | 11 | 10 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
16 | 11 | 10 | 10 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 7 | 7 | 7 |
|
|
|
|
|
|
|
|
| ||||||||||||||||||||||
17 | 12 | 11 | 10 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 8 | 7 | 7 | 7 |
|
|
|
|
|
|
|
| ||||||||||||||||||||||
18 | 12 | 11 | 10 | 10 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 7 | 7 |
|
|
|
|
|
|
| ||||||||||||||||||||||
19 | 13 | 12 | 11 | 10 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 8 |
|
|
|
|
|
| ||||||||||||||||||||||
20 | 13 | 12 | 11 | 10 | 10 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 8 |
|
|
|
|
| ||||||||||||||||||||||
25 | 16 | 14 | 13 | 12 | 11 | 10 | 10 | 9 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 8 | 8 | 8 |
|
|
|
| ||||||||||||||||||||||
30 | 18 | 16 | 15 | 13 | 12 | 12 | 11 | 10 | 10 | 10 | 9 | 9 | 9 | 8 | 8 | 8 | 8 | 8 | 8 |
|
|
| ||||||||||||||||||||||
35 | 21 | 18 | 17 | 15 | 14 | 13 | 12 | 11 | 11 | 10 | 10 | 10 | 9 | 9 | 9 | 9 | 9 | 8 | 8 | 8 |
|
| ||||||||||||||||||||||
40 | 24 | 21 | 18 | 17 | 15 | 14 | 13 | 13 | 12 | 11 | 11 | 10 | 10 | 10 | 9 | 9 | 9 | 8 | 8 | 8 | 8 |
| ||||||||||||||||||||||
50 | 29 | 25 | 22 | 20 | 18 | 17 | 16 | 15 | 14 | 13 | 13 | 12 | 12 | 11 | 11 | 10 | 10 | 9 | 8 | 8 | 8 | 8 |
摘自 山内二郎:统计数值表,284,JSA-1972
组的血铅值有无差别?
|
H0:血铅值的两总体分布相同,H1:两总体的位置不同。
a=0.05。
将两组观察值按统一顺序从小到大排列如上,得左侧超过数为7,右侧超过数为3,分属于两个样本,故S=7+3=10。查表1,n1 =7,n2=10,双侧检验,10>7(S0.05界值),故P<0.05,按a=0.05水准拒绝H0,接受H1,可认为铅作业工人血铅值高于非铅作业工人。
例2 从甲、乙两个鱼场分别抽取渔工测定其发汞含量(ppm)如下 (摘录其最小值、最大值和超过数部分的有关数据),问两组的发汞含量有无不同?
甲渔场 | 0.00 | 0.25 | 0.75 |
| 1.63 | … | 24.0 |
|
|
乙渔场 |
|
|
| 1.25 | … | 22.0 |
| 24.5 | 27.5 |
H0:两渔场渔工发汞含量的两总体分布相同,
H1:两总体的位置不同。
a=0.05。
将两组观察值从小到大混合排列如上,得左侧超过数为3,右侧超过数为2,分属两个样本,故S=3+2=5。由于n1=57,n2=61,已超过表1范围,故按式(1):
双侧 P=2×0.08886=0.1777。
双侧检验,按α=0.05水准不拒绝H0,故认为此资料尚不足以说明两渔场渔工的发汞含量不同。
两样本的变异度比较(A. R. Kamat,1956) 方法步骤如下:
(1)将两样本观察值按前述规定排列,并计算左、右侧超过数。
(2) 求统计量S值。方法与“两样本的中心位置比较”相反: ①当左、右侧超过数属于同一样本时,S等于两侧超过数之和。并以超过数所属样本含量为n2,另一样本含量为n1。②当左、右侧超过数分属不同样本时,S等于两侧超过数之差(取绝对值)。并以超过数较小的样本含量为n1,较大者为n2。
(3) 按n1、n2,所得S及所取检验水准查表2得P值。若S≥Sα,则P<α;反之,S<Sα,则P>α。按所取检验水准作出推断结论。
当n1或n2超出表2范围时,按式(3)直接计算单侧P值(即大于及等于S的累计概率),取双侧时P值应2倍
表2 两变异度差别检验用S界值表
P(1)=0.025,P(2)=0.05
n1 | n2 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 25 | 30 | 35 | 40 | 50 | |||||||||||||||||||||
4 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 11 | 12 | 13 | 14 | 15 | 15 | 16 | 17 | 18 | 22 | 26 | 30 | 34 | 42 | ||||||||||||||||||||||
6 | 4 | 5 | 6 | 6 | 7 | 8 | 8 | 9 | 10 | 10 | 11 | 12 | 12 | 13 | 14 | 14 | 15 | 18 | 21 | 25 | 28 | 34 | ||||||||||||||||||||||
11 | 3 | 4 | 4 | 5 | 5 | 6 | 6 | 6 | 7 | 7 | 8 | 8 | 9 | 9 | 10 | 10 | 10 | 12 | 15 | 17 | 19 | 23 | ||||||||||||||||||||||
16 | 3 | 3 | 3 | 4 | 4 | 5 | 5 | 5 | 6 | 6 | 6 | 7 | 7 | 7 | 8 | 8 | 8 | 10 | 11 | 13 | 14 | 17 | ||||||||||||||||||||||
25 | 1 | 2 | 3 | 3 | 3 | 4 | 4 | 4 | 4 | 5 | 5 | 5 | 5 | 5 | 6 | 6 | 6 | 7 | 8 | 9 | 10 | 12 |
摘自 山内二郎:統計数值表,294,JSA-1972
例3 对12例矽肺0期工人和10例肺癌病人测量X线片上R1值(肺门横径右侧距,cm),结果如下,试比较两组观察值的变异度。
H0: 矽肺0期工人的R1值与肺癌病人的R1值两总体分布相同,
H1: 两总体中个体值的变异度不同。
α=0.05。
本例,左侧超过数为2,右侧超过数为5,二者同属肺癌样本,故S=2+5=7。 n1=12, n2=10,查表2,双侧检验,7>6(S0.05界值),故P<0.05,按α=0.05水准拒绝H0,接受H1,可认为肺癌病人R1值的变异度大于矽肺0期工人的。
两样本的一般位置比较(B. Epstein,1954) 上面所讨论的芳贺检验只能检验两总体的中心位置有无差别,本法则可用于检验两总体分布的任一(一般)位置(即第d位数)有无差别。本法尤其适用于疾病的生存期分析。为方便计,假定两样本含量相等,都是n。方法步骤如下:
(1)将两个样本的观察值分别从小到大排列。
(2)先在有右侧超过数的样本中,指定第d个观察值A,然后以另一个样本的观察值中大于A的个数作为统计量S值,如图3。
图3 一般位置超过数检验示意
(3)按所定d值及所得S值查表3得P值(即另一样本中出现0,1,2,…,S个观察值大于A的累计概率),按所取检验水准作出推断结论。有时由于d的位置选择不当可能使应被拒绝的检验假设未被拒绝。表3仅节录了n1=n1=10时各S、d值相应的P值。
表3 两一般位置差别检验的概率表
n1=n2=10
d | S | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |||||||||
1 | .0000 | .0001 | .0004 | .0015 | .0054 | .0163 | .0433 | .1053 | .2368 | .5000 | ||||||||||
6 | .0163 | .0704 | .1749 | .3250 | .5000 | .6719 | .8151 | .9151 | .9714 | .9946 |
摘自 山内二郎:统计数值表,288,JSA-1972 (按原书公式作了增补。当S=10时,d不论为何值,累计概率均为1,表中从略。)
例4 两类胃癌(高分化腺癌与未分化癌)患者各10例,术后生存月数如下,比较两组术后生存期(生存时间从短到长排列,指定d为高分化腺癌的第四个病例)有无差别。
H0:两类胃癌术后生存期的总体分布相同,
H1:高分化腺癌术后生存期长于未分化癌。
单侧a=0.05。
未分化癌组超过高分化腺癌组的第四位数“36” 的有2个数据: 37和46,故S=2。n1=n2=10,查表3,d=4,S=2,单侧检验,得P = 0.0349 (即未分化腺癌组中出现生存期大于3年的概率很小),按a=0.05水准拒绝H0,接受H1,故可认为高分化腺癌术后生存期长于未分化癌。
![]() |