公卫百科首页>> 公卫百科>> 医学统计 >>两样本比较的超过数检验

两样本比较的超过数检验
 
摘要: 本法是根据两样本的观察值混合由小到大排列后,以非交叉重叠部分的多少来推断两总体的位置 (即变量值的倾向性)或变异度有无差别。检验假设H0为两样本分别代表的两总体的分布相同,备择假设H1为两总体的位置(中心位置或一般位置)不同或变异度不同。

本法是根据两样本的观察值混合由小到大排列后,以非交叉重叠部分的多少来推断两总体的位置 (即变量值的倾向性)或变异度有无差别。检验假设H0为两样本分别代表的两总体的分布相同,备择假设H1为两总体的位置(中心位置或一般位置)不同或变异度不同。这是一种快速的检验方法,适用于计量资料或顺序资料。

非交叉重叠部分观察值的个数称为超过数。一样本观察值中小于另一样本最小值的个数称为左侧超过数,而大于另一样本最大值的个数称为右侧超过数。左右侧超过数可能分属于两样本,如图1,也可能属于同一样本,如图2。

图1 超过数分属于两样本示意

图2 超过数属于同一样本示意

两样本的中心位置比较[芳贺敏郎 (T. Haga),1960]方法步骤如下:

(1) 将两样本观察值按上述规定排列,并计算左、右侧超过数。

(2) 求统计量S值。当左、右侧超过数属于不同样本时,S等于两侧超过数之和;属于同一样本时,S等于两侧超过数之差(取绝对值)。

(3) 求得S值后,按两样本的含量n1与n2 (取n1≤n2)及所取检验水准a查表1,若S≥Sa,则P<a;若S<Sa,则P>a。由P值作出推断结论。

当n1或n2超出表1范围时,可按式(1)或式(2)直接计算单侧P值(即大于及等于S的累计概率),取双侧时P值应2倍之。

例1 铅作业与非铅作业工人的血铅值(μg/100g)如下,问两

表1 两中心位置差别检验用S界值表

P(1)=0.025,P(2)=0.05; n1≤n2

n2

n1

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

25

30

35

40

50

4

6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

7

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

8

7

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

8

8

7

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

9

8

8

7

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

9

8

8

8

7

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

10

9

8

8

8

7

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

 

13

10

9

9

8

8

8

7

7

7

7

 

 

 

 

 

 

 

 

 

 

 

 

14

10

10

9

8

8

8

8

8

7

7

7

 

 

 

 

 

 

 

 

 

 

 

15

11

10

9

9

8

8

8

8

8

7

7

7

 

 

 

 

 

 

 

 

 

 

16

11

10

10

9

9

8

8

8

8

8

7

7

7

 

 

 

 

 

 

 

 

 

17

12

11

10

9

9

8

8

8

8

8

8

7

7

7

 

 

 

 

 

 

 

 

18

12

11

10

10

9

9

8

8

8

8

8

8

8

7

7

 

 

 

 

 

 

 

19

13

12

11

10

9

9

8

8

8

8

8

8

8

8

8

8

 

 

 

 

 

 

20

13

12

11

10

10

9

9

8

8

8

8

8

8

8

8

8

8

 

 

 

 

 

25

16

14

13

12

11

10

10

9

9

9

8

8

8

8

8

8

8

8

 

 

 

 

30

18

16

15

13

12

12

11

10

10

10

9

9

9

8

8

8

8

8

8

 

 

 

35

21

18

17

15

14

13

12

11

11

10

10

10

9

9

9

9

9

8

8

8

 

 

40

24

21

18

17

15

14

13

13

12

11

11

10

10

10

9

9

9

8

8

8

8

 

50

29

25

22

20

18

17

16

15

14

13

13

12

12

11

11

10

10

9

8

8

8

8

摘自 山内二郎:统计数值表,284,JSA-1972

组的血铅值有无差别?

铅作业组
(7例)
 17 17 18 20 34 43 44
非铅作业组
(10例)
5 5 6 8 12 13 15 21 21 31 

H0:血铅值的两总体分布相同,H1:两总体的位置不同。

a=0.05。

将两组观察值按统一顺序从小到大排列如上,得左侧超过数为7,右侧超过数为3,分属于两个样本,故S=7+3=10。查表1,n1 =7,n2=10,双侧检验,10>7(S0.05界值),故P<0.05,按a=0.05水准拒绝H0,接受H1,可认为铅作业工人血铅值高于非铅作业工人。

例2 从甲、乙两个鱼场分别抽取渔工测定其发汞含量(ppm)如下 (摘录其最小值、最大值和超过数部分的有关数据),问两组的发汞含量有无不同?

甲渔场
(57例)

0.00

0.25

0.75

 

1.63

24.0

 

 

乙渔场
(61例)

 

 

 

1.25

22.0

 

24.5

27.5

H0:两渔场渔工发汞含量的两总体分布相同,

H1:两总体的位置不同。

a=0.05。

将两组观察值从小到大混合排列如上,得左侧超过数为3,右侧超过数为2,分属两个样本,故S=3+2=5。由于n1=57,n2=61,已超过表1范围,故按式(1):

双侧 P=2×0.08886=0.1777。

双侧检验,按α=0.05水准不拒绝H0,故认为此资料尚不足以说明两渔场渔工的发汞含量不同。

两样本的变异度比较(A. R. Kamat,1956) 方法步骤如下:

(1)将两样本观察值按前述规定排列,并计算左、右侧超过数。

(2) 求统计量S值。方法与“两样本的中心位置比较”相反: ①当左、右侧超过数属于同一样本时,S等于两侧超过数之和。并以超过数所属样本含量为n2,另一样本含量为n1。②当左、右侧超过数分属不同样本时,S等于两侧超过数之差(取绝对值)。并以超过数较小的样本含量为n1,较大者为n2

(3) 按n1、n2,所得S及所取检验水准查表2得P值。若S≥Sα,则P<α;反之,S<Sα,则P>α。按所取检验水准作出推断结论。

当n1或n2超出表2范围时,按式(3)直接计算单侧P值(即大于及等于S的累计概率),取双侧时P值应2倍

表2 两变异度差别检验用S界值表

P(1)=0.025,P(2)=0.05

n1

n2

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

25

30

35

40

50

4
5

4

5

6
6

7
7

8
7

9
8

10
9

11
10

11
10

12
11

13
12

14
13

15
13

15
14

16
15

17
16

18
16

22
20

26
23

30
27

34
31

42
38

6
7
8
9
10

4
4
4
4
3

5
5
4
4
4

6
5
5
5
4

6
6
5
5
5

7
6
6
6
5

8
7
7
6
6

8
8
7
7
6

9
8
8
7
7

10
9
8
8
7

10
9
9
8
8

11
10
9
9
8

12
11
10
9
9

12
11
10
10
9

13
12
11
10
10

14
12
12
11
10

14
13
12
11
11

15
14
13
12
11

18
17
15
14
13

21
19
18
17
16

25
22
21
19
18

28
25
23
22
20

34
31
29
26
25

11
12
13
14
15

3
3
3
3
3

4
4
3
3
3

4
4
4
4
4

5
4
4
4
4

5
5
5
5
4

6
5
5
5
5

6
6
5
5
5

6
6
6
6
5

7
7
6
6
6

7
7
7
6
6

8
7
7
7
6

8
8
7
7
7

9
8
8
7
7

9
9
8
8
7

10
9
9
8
8

10
9
9
9
8

10
10
9
9
8

12
12
11
11
10

15
14
13
12
12

17
16
15
14
13

19
18
17
16
15

23
22
20
19
18

16
17
18
19
20

3
3
3
2
2

3
3
3
3
3

3
3
3
3
3

4
4
4
4
3

4
4
4
4
4

5
4
4
4
4

5
5
5
4
4

5
5
5
5
5

6
5
5
5
5

6
6
5
5
5

6
6
6
6
5

7
6
6
6
6

7
7
6
6
6

7
7
7
6
6

8
7
7
7
7

8
8
7
7
7

8
8
8
7
7

10
9
9
9
8

11
11
10
10
10

13
12
12
11
11

14
14
13
13
12

17
17
16
15
15

25
30
35
40
50

1
1
1
1
1

2
1
1
1
1

3
2
1
1
1

3
3
3
1
1

3
3
3
3
1

4
3
3
3
2

4
3
3
3
3

4
4
3
3
3

4
4
4
3
3

5
4
4
3
3

5
4
4
4
3

5
4
4
4
3

5
6
4
4
3

5
5
4
4
4

6
5
5
4
4

6
5
5
4
4

6
5
5
5
4

7
6
6
5
5

8
7
7
6
5

9
8
7
7
6

10
9
8
7
6

12
11
10
9
7

摘自 山内二郎:統計数值表,294,JSA-1972

例3 对12例矽肺0期工人和10例肺癌病人测量X线片上R1值(肺门横径右侧距,cm),结果如下,试比较两组观察值的变异度。

H0: 矽肺0期工人的R1值与肺癌病人的R1值两总体分布相同,

H1: 两总体中个体值的变异度不同。

α=0.05。

本例,左侧超过数为2,右侧超过数为5,二者同属肺癌样本,故S=2+5=7。 n1=12, n2=10,查表2,双侧检验,7>6(S0.05界值),故P<0.05,按α=0.05水准拒绝H0,接受H1,可认为肺癌病人R1值的变异度大于矽肺0期工人的。

两样本的一般位置比较(B. Epstein,1954) 上面所讨论的芳贺检验只能检验两总体的中心位置有无差别,本法则可用于检验两总体分布的任一(一般)位置(即第d位数)有无差别。本法尤其适用于疾病的生存期分析。为方便计,假定两样本含量相等,都是n。方法步骤如下:

(1)将两个样本的观察值分别从小到大排列。

(2)先在有右侧超过数的样本中,指定第d个观察值A,然后以另一个样本的观察值中大于A的个数作为统计量S值,如图3。

图3 一般位置超过数检验示意

(3)按所定d值及所得S值查表3得P值(即另一样本中出现0,1,2,…,S个观察值大于A的累计概率),按所取检验水准作出推断结论。有时由于d的位置选择不当可能使应被拒绝的检验假设未被拒绝。表3仅节录了n1=n1=10时各S、d值相应的P值。

表3 两一般位置差别检验的概率表

n1=n2=10

d

S

0

1

2

3

4

5

6

7

8

9

1
2
3
4
5

.0000
.0001
.0004
.0015
.0054

.0001
.0005
.0027
.0099
.0286

.0004
.0027
.0115
.0349
.0849

.0015
.0099
.0349
.0894
.1849

.0054
.0286
.0849
.1849
.3281

.0163
.0704
.1749
.3250
.5000

.0433
.1517
.3142
.5000
.6750

.1053
.2910
.5000
.6858
.8251

.2368
.5000
.7090
.8483
.9296

.5000
.7632
.8947
.9567
.9837

6
7
8
9
10

.0163
.0433
.1053
.2368
.5000

.0704
.1517
.2910
.5000
.7632

.1749
.3142
.5000
.7090
.8947

.3250
.5000
.6858
.8483
.9567

.5000
.6750
.8251
.9296
.9837

.6719
.8151
.9151
.9714
.9946

.8151
.9106
.9651
.9901
.9985

.9151
.9651
.9885
.9973
.9996

.9714
.9901
.9973
.9995
.9999

.9946
.9985
.9996
.9999
1.0000

摘自 山内二郎:统计数值表,288,JSA-1972 (按原书公式作了增补。当S=10时,d不论为何值,累计概率均为1,表中从略。)

例4 两类胃癌(高分化腺癌与未分化癌)患者各10例,术后生存月数如下,比较两组术后生存期(生存时间从短到长排列,指定d为高分化腺癌的第四个病例)有无差别。

H0:两类胃癌术后生存期的总体分布相同,

H1:高分化腺癌术后生存期长于未分化癌。

单侧a=0.05。

未分化癌组超过高分化腺癌组的第四位数“36” 的有2个数据: 37和46,故S=2。n1=n2=10,查表3,d=4,S=2,单侧检验,得P = 0.0349 (即未分化腺癌组中出现生存期大于3年的概率很小),按a=0.05水准拒绝H0,接受H1,故可认为高分化腺癌术后生存期长于未分化癌。

发表评价

词条信息

  • 浏览次数:4485 次
  • 发布时间: 2013-01-06
  • 更新时间: 2013-01-06

参与评价:

  • 词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
热门标签

中国疾病预防控制中心 版权所有 京ICP备11024750
中国疾控中心信息中心 内容管理与技术支持 建议使用1024*768 分辨率,IE8.0以上
地址:北京市昌平区昌百路155号 邮编:102206 热线电话:13911841040