极差分析-公卫百科-公共卫生科学数据中心

极差分析

摘要: 极差又称全距，是一组变量值中最大值与最小值之差，符号为R。极差是一种最简单但较粗略的变异指标，它没有利用全部数据所提供的信息，又易受个别极端值的影响，而对于来自正态总体的小样本，则是一种较有效的变异指标。

极差又称全距，是一组变量值中最大值与最小值之差，符号为R。极差是一种最简单但较粗略的变异指标，它没有利用全部数据所提供的信息，又易受个别极端值的影响，而对于来自正态总体的小样本，则是一种较有效的变异指标。极差分析可用于参数估计、容许区间估计和假设检验等。参数估计

总体标准差的点估计如样本来自正态总体，可按式(1)由极差R估计总体标准差σ。

式中为总体标准差σ的估计值，与用样本标准差s估计总体标准差相比，用极差估计的相对效率随样本含量增大而渐减。c为系数，随样本含量增加而渐增。均见表1。

表1 由R估计σ用的系数c与相对效率

样本含量	c	相对效率
2 4 6 8 10 20 30 40 50	1.13 2.06 2.53 2.85 3.08 3.73 4.08 4.33 4.50	1.000 0.975 0.933 0.890 0.850 0.700 0.604 0.536 0.490

摘自 Snedecor GW： Statistical Methods，fifth edi-tion，p 38，The Iowa State College Press，1959

为了提高估计的准确性，尤其当总例数较多时，可先将变量值随机分成k个例数相等的组，分别求出各组的极差，再用平均极差R按式(2)估计总体标准差。

式中c_n，k按每组例数n和组数k由表2查出。表2中k为∞时，cn，k值与表1的c值完全相同。

总体均数的区间估计可按式(3)及式(4)计算由极差估计总体均数的可信区间Cl。

表2 由R估计σ的系数c_n，k

组数 k	每组例数，n									2	3	4	5	6	7	8	9	10
组数 k	1 2 3 4 5	1.41 1.28 1.23 1.21 1.19	1.91 1.81 1.77 1.75 1.74	2.24 2.15 2.12 2.11 2.10	2.48 2.40 2.38 2.37 2.36	2.67 2.60 2.58 2.57 2.56	2.83 2.77 2.75 2.74 2.73	2.96 2.91 2.89 2.88 2.87	3.08 3.02 3.01 3.00 2.99	3.18 3.13 3.11 3.10 3.10
6 7 8 9 10	1.18 1.17 1.17 1.16 1.16	1.73 1.73 1.72 1.72 1.72	2.09 2.09 2.08 2.08 2.08	2.35 2.35 2.35 2.34 2.34	2.56 2.55 2.55 2.55 2.55	2.73 2.72 2.72 2.72 2.72	2.87 2.86 2.86 2.86 2.86	2.99 2.99 2.98 2.98 2.98	3.09 3.09 3.09 3.09 3.09
∞	1.13	1.69	2.06	2.33	2.53	2.70	2.85	2.97	3.08

摘自 Beyer WH： Handbook of Tables for Proba-bility and Statistics，second edition，p 386，CRC Press，Inc.，1979

式中A为系数，由表3查出。表3中n、k的意义同式(2)。

表3 由R作总体均数区间估计的系数A

上行： A_0.05，下行： A_0.01

组数 k	每组例数，n									2	3	4	5	6	7	8	9	10
组数 k	1	6.36 31.9	1.30 3.00	.719 1.36	.505 .865	.402 .673	.336 .514	.291 .430	.256 .379	.232 .338
2	.879 2.11	.316 .474	.206 .312	.154 .227	.125 .179	.106 .150	.093 .131	.084 .116	.076 .105
3	.360 .660	.156 .273	.104 .150	.079 .112	.065 .091	.056 .077	.049 .068	.044 .060	.040 .054
4	.210 .350	.096 .142	.065 .092	.050 .070	.042 .057	.036 .048	.032 .043	.028 .038	.026 .035
5	.140 .226	.066 .095	.046 .063	.035 .049	.030 .040	.025 .034	.022 .030	.020 .027	.018 .025
6	.102 .157	.050 .070	.034 .047	.027 .036	.022 .030	.019 .026	.017 .023	.015 .020	.014 .019
7	.079 .117	.039 .055	.027 .037	.021 .029	.018 .024	.015 .020	.013 .018	.012 .016	.011 .015
8	.063 .094	.032 .044	.022 .030	.017 .023	.014 .019	.012 .016	.011 .014	.010 .013	.009 .012
9	.053 .076	.027 .036	.018 .025	.014 .019	.012 .016	.010 .014	.009 .012	.008 .011	.007 .010
10	.044 .064	.023 .031	.016 .021	.012 .016	.010 .014	.009 .012	.008 .010	.007 .009	.006 .008

摘自 Bauer EL： A Statistical Manual for Chemists，second edition，p 165，Academic Press，1971

例1 一份水样中氟化物的5次测定值 (mg/L)为0.48，0.37，0.47，0.40，0.43。试由其极差估计标准差。

R=0.48-0.37=0.11，n=5，k=1。查表2，c5，1=2.48，代入式(2)得

即标准差的估计值为0.044mg/L。

例2 测得32名从事某作业工人的血红蛋白量(g/dl)，见表4。试由其极差估计标准差。

表4 32名某作业工人的血红蛋白量(g/dl)

变量值

14.8
15.1
15.6
14.5

15.4
15.3
14.6
16.4

15.5
14.2
15.9
15.2

13.7
14.8
15.5
12.5

14.4
14.9
14.7
14.4

14.1
14.3
14.4
17.0

14.4
12.8
13.8
15.2

14.4
13.4
15.4
14.4

1.8
2.5
2.1
4.5

1.1

1.8

1.7

3.0

0.5

2.9

2.4

2.0

随机将32个变量值分成8组，如表4各纵列，并将各组极差列于表4末行，算得

n=4，k=8，查表2，得c4，8=2.08，按式(2)：

即标准差的估计值为0.925g/dl。

如按横行分组，并将各组极差列于表4的右侧，同理算得＝2.725， N=8， K=4。查表2， C₈，₄ -2.88，则＝2.725/2.88=0.946g/dl，与上述结果很接近。

例3 表4资料的均数＝14.72g/dl，求总体均数的95%可信区间。

按纵列分组，得∑R =15.4，n=4，k=8。查表3，A0.05=0.022，按式(3)得

(14.72-0.022×15.4，14.72+0.022×15.4)=(14.38，15.06)，

即该作业工人的平均血红蛋白量的95%可信区间为14.38～15.06g/dl。

如按横行分组，同理得95%可信区间为14.37～15.07g/dl，与上述结果很接近。

容许区间估计 对总体中个体值分布范围的估计称容许区间估计，如95%容许区间表示总体中95%的个体值在此范围内，而在此范围以外，两侧尾部各有2.5%的个体值。容许区间常简写为TI。计算公式为

式中I为系数，由表5查出。n、k的意义同式(2)。例4 用表4资料估计总体中个体值的95%容许区间。按纵列分组得：∑R=15.4，n=4，k=8。查表5，I0.05 = 0.124。由例3，  = 14.72。按式(5)：

(14.72-0.124×15.4，14.72+0.124×15.4)=(12.81，16.63)，

即某作业工人中约有95%的人血红蛋白量在12.81～16.63g/dl范围内。

如按横行分组时，得95%TI为12.75～16.69g/dl，与上述结果很接近。

表5 由R作容许区间估计的系数I

上行： I_0.05，下行： I_0.01

组数 k	每组例数，n									2	3	4	5	6	7	8	9	10
组数 k	1	8.99 45.1	2.25 5.20	1.44 2.72	1.13 1.93	.985 1.65	.889 1.36	.823 1.22	.768 1.14	.734 1.07
2	1.76 4.22	.774 1.16	.583 .882	.487 .718	.433 .620	.397 .561	.372 .524	.356 .492	.340 .470
3	.882 1.62	.486 .819	.360 .520	.306 .434	.276 .386	.257 .353	.240 .333	.229 .312	.219 .296
4	.594 .990	.332 .492	.260 .368	.224 .313	.206 .279	.190 .254	.181 .243	.168 .228	.164 .221
5	.443 .715	.256 .368	.206 .282	.175 .245	.164 .219	148 .201	.139 .190	.134 .181	.127 .177
6	.353 .544	.212 .297	.166 .230	.148 .197	.132 .180	.123 .168	.118 .159	.110 .147	.108 .145
7	.296 .438	.179 .252	.143 .196	.124 .172	117 .156	.105 .140	.097 .135	.095 .127	.092 .124
8	.252 .376	.157 .216	.124 .170	.108 .145	.097 .132	.090 .120	.088 .112	.085 .110	.080 .108
9	.225 .322	.140 187	.108 .150	.094 .127	088 .118	.079 .111	.076 .101	.072 .099	.066 .095
10	.197 .286	.126 .170	.101 .133	.085 .113	.077 .108	.075 .100	.072 .089	.066 .085	.060 .080

摘自 Bauer EL： A Statistical Manual for Chemists，second edition，p 166，Academic Press，1971

假设检验

样本均数与总体均数的比较用L检验。按式(7)计算统计量L值。

式中μ为总体均数，为样本均数， R为极差。算得L值后，查表6L界值表得P值，按所取检验水准作出推断结论。

表6 极差分析用L界值表

n	P(1)：0.05 P(2)：0.10	0.025 0.05	0.01 0.02	0.005 0.01
2 3 4 5	3.175 0.885 0.529 0.388	6.353 1.304 0.717 0.507	15.910 2.111 1.023 0.685	31.828 3.008 1.316 0.843
6 7 8 9 10	0.312 0.263 0.230 0.205 0.186	0.399 0.333 0.288 0.255 0.230	0.523 0.429 0.366 0.322 0.288	0.628 0.507 0.429 0.374 0.333

摘自 Beyer WH： Handbook of Tables for Probabi-lity and Statistics，second edition，p 380，CRCPress，Inc.，1979

配对计量资料的比较用L检验。按式(8)计算统计量L值。

式中为配对计量数据差值d的均数， R为d的极差。算得L值后，查表6L界值表得P值，按所取检验水准作出推断结论。

两样本均数的比较用M检验。按式(9)计算统计量M值。

式中1，与₂_、R1与R₂分别为两样本的均数和极差。算得M值后，查表7M界值表，恒取n₁≤n2，得P值，按所取检验水准作出推断结论。

表7 极差分析用M界值表

n1	n2	P(1)：0.05 P(2)：0.10	0.025 0.05	0.01 0.02	0.005 0.01	n1	n2	P(1)：0.05 P(2)：0.10	0.025 0.05	0.01 0.02	0.005 0.01
4	4 5 6 7 8 9 10 15 20	.322 .282 .256 .237 .224 .213 .204 .178 .164	.407 .353 .319 .294 .276 .263 .252 .218 .200	.526 .450 .403 .370 .346 .327 .313 .268 .246	.620 .528 .469 .429 .399 .377 .359 .306 .279	9	9 10 15 20	.137 .131 .112 .102	.167 .160 .136 .124	.205 .195 .165 .150	.233 .221 .187 .169
						10	10 12 14 16 18 20	.125 .116 .109 .104 .100 .097	.152 .141 .133 .126 .121 .117	.186 .171 .161 .153 .147 .142	.210 .194 .182 .173 .165 .160	5	5 6 7 8 9 10 15 20	.247 .224 .208 .195 .186 .178 .155 .142	.307 .277 .256 .240 .228 .218 .189 .173	.387 .347 .319 .299 .282 .270 .232 .212	.450 .402 .368 .343 .323 .309 .263 .240	12	12 14 16 18 20	.107 .101 .096 .092 .089	.130 .122 .116 .111 .107	.158 .148 .140 .134 .130	.178 .167 .158 .151 .146	14	14 16 18 20	.094 .090 .086 .083	.114 .108 .104 .101	.138 .131 .125 .121	.156 .147 .141 .135	6	6 7 8 9 10 15 20	.203 .188 .177 .168 .161 .139 .128	.250 .240 .217 .206 .197 .169 .155	.312 .287 .268 .254 .242 .207 .189	.329 .329 .307 .289 .276 .235 .214	16	16 18 20	.085 .081 .078	.103 .098 .094	.124 .118 .114	.139 .133 .128	18	18 20	.077 .074	.093 .090	.113 .108	.126 .121	7	7 8 9 10 15 20	.174 .163 .155 .148 .128 .117	.213 .200 .189 .181 .155 .142	.263 .246 .233 .222 .189 .172	.301 .281 .265 .252 .214 .195	20	20	.071	.086	.104	.116	8	8 9 10 15 20	.153 .145 .139 .119 .109	.187 .177 .169 .144 .132	.231 .217 .207 .176 .160	.262 .247 .235 .199 .180

摘自 Moore PG： The two-sample t-test based on range，Biometrika，44： 487，1957

例5 从加锰30.0μg/L的自来水中取5份水样测锰(μg/L)，得28.9、29.0、30.0、29.1、28.5，算得均数＝29.1。问本法测得均数是否低于加入量。

H₀： μ=30.0，H1： μ<30.0。单侧α=0.05。

查表6，n=5，得0.025>P>0.01，按α=0.05水准拒绝H0，接受H₁，可认为本法测得的锰量低于加入量。

例6 10名受试者的尿样分别经4.5小时与28小时消化时间的尿汞测定值见表8，问不同消化时间的测定值有无差别?

H₀： μ=0，H₁： μ≠0。α=0.05。

表8 不同消化时间尿汞测定值(mg/L)

编号	消化时间(小时)		差值 d	4.5	28
	1 2 3 4 5 6 7 8 9 10	0.040 0.227 0.109 0.077 0.098 0.092 0.195 0.079 0.075 0.033		0.055 0.267 0.086 0.109 0.118 0.103 0.210 0.091 0.109 0.043	-0.015 -0.040 0.023 -0.032 -0.020 -0.011 -0.015 -0.012 -0.034 -0.010
-0.166