极差又称全距,是一组变量值中最大值与最小值之差,符号为R。极差是一种最简单但较粗略的变异指标,它没有利用全部数据所提供的信息,又易受个别极端值的影响,而对于来自正态总体的小样本,则是一种较有效的变异指标。极差分析可用于参数估计、容许区间估计和假设检验等。参数估计
总体标准差的点估计 如样本来自正态总体,可按式(1)由极差R估计总体标准差σ。
式中为总体标准差σ的估计值,与用样本标准差s估计总体标准差相比,用极差估计的相对效率随样本含量增大而渐减。c为系数,随样本含量增加而渐增。均见表1。
表1 由R估计σ用的系数c与相对效率
样本含量 | c | 相对效率 |
2 | 1.13 | 1.000 |
摘自 Snedecor GW: Statistical Methods,fifth edi-tion,p 38,The Iowa State College Press,1959
为了提高估计的准确性,尤其当总例数较多时,可先将变量值随机分成k个例数相等的组,分别求出各组的极差,再用平均极差R按式(2)估计总体标准差。
式中cn,k按每组例数n和组数k由表2查出。表2中k为∞时,cn,k值与表1的c值完全相同。
总体均数的区间估计 可按式(3)及式(4)计算由极差估计总体均数的可信区间Cl。
表2 由R估计σ的系数cn,k
组数 | 每 组 例 数,n | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||||||||
1 | 1.41 | 1.91 | 2.24 | 2.48 | 2.67 | 2.83 | 2.96 | 3.08 | 3.18 | |||||||||
6 | 1.18 | 1.73 | 2.09 | 2.35 | 2.56 | 2.73 | 2.87 | 2.99 | 3.09 | |||||||||
∞ | 1.13 | 1.69 | 2.06 | 2.33 | 2.53 | 2.70 | 2.85 | 2.97 | 3.08 |
摘自 Beyer WH: Handbook of Tables for Proba-bility and Statistics,second edition,p 386,CRC Press,Inc.,1979
式中A为系数,由表3查出。表3中n、k的意义同式(2)。
表3 由R作总体均数区间估计的系数A
上行: A0.05,下行: A0.01
组数 | 每 组 例 数,n | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||||||||
1 | 6.36 | 1.30 | .719 | .505 | .402 | .336 | .291 | .256 | .232 | |||||||||
2 | .879 | .316 | .206 | .154 | .125 | .106 | .093 | .084 | .076 | |||||||||
3 | .360 | .156 | .104 | .079 | .065 | .056 | .049 | .044 | .040 | |||||||||
4 | .210 | .096 | .065 | .050 | .042 | .036 | .032 | .028 | .026 | |||||||||
5 | .140 | .066 | .046 | .035 | .030 | .025 | .022 | .020 | .018 | |||||||||
6 | .102 | .050 | .034 | .027 | .022 | .019 | .017 | .015 | .014 | |||||||||
7 | .079 | .039 | .027 | .021 | .018 | .015 | .013 | .012 | .011 | |||||||||
8 | .063 | .032 | .022 | .017 | .014 | .012 | .011 | .010 | .009 | |||||||||
9 | .053 | .027 | .018 | .014 | .012 | .010 | .009 | .008 | .007 | |||||||||
10 | .044 | .023 | .016 | .012 | .010 | .009 | .008 | .007 | .006 |
摘自 Bauer EL: A Statistical Manual for Chemists,second edition,p 165,Academic Press,1971
例1 一份水样中氟化物的5次测定值 (mg/L)为0.48,0.37,0.47,0.40,0.43。试由其极差估计标准差。
R=0.48-0.37=0.11,n=5,k=1。查表2,c5,1=2.48,代入式(2)得
即标准差的估计值为0.044mg/L。
例2 测得32名从事某作业工人的血红蛋白量(g/dl),见表4。试由其极差估计标准差。
表4 32名某作业工人的血红蛋白量(g/dl)
| 变 量 值 | R | 14.8 | 15.4 | 15.5 | 13.7 | 14.4 | 14.1 | 14.4 | 14.4 | 1.8 | R | 1.1 | 1.8 | 1.7 | 3.0 | 0.5 | 2.9 | 2.4 | 2.0 |
随机将32个变量值分成8组,如表4各纵列,并将各组极差列于表4末行,算得
n=4,k=8,查表2,得c4,8=2.08,按式(2):
即标准差的估计值为0.925g/dl。
如按横行分组,并将各组极差列于表4的右侧,同理算得=2.725, N=8, K=4。 查表2, C8,4 -2.88,则=2.725/2.88=0.946g/dl,与上述结果很接近。
例3 表4资料的均数=14.72g/dl,求总体均数的95%可信区间。
按纵列分组,得∑R =15.4,n=4,k=8。查表3,A0.05=0.022,按式(3)得
(14.72-0.022×15.4,14.72+0.022×15.4)=(14.38,15.06),
即该作业工人的平均血红蛋白量的95%可信区间为14.38~15.06g/dl。
如按横行分组,同理得95%可信区间为14.37~15.07g/dl,与上述结果很接近。
容许区间估计 对总体中个体值分布范围的估计称容许区间估计,如95%容许区间表示总体中95%的个体值在此范围内,而在此范围以外,两侧尾部各有2.5%的个体值。容许区间常简写为TI。计算公式为
式中I为系数,由表5查出。n、k的意义同式(2)。例4 用表4资料估计总体中个体值的95%容许区间。按纵列分组得:∑R=15.4,n=4,k=8。查表5,I0.05 = 0.124。由例3, = 14.72。 按式(5):
(14.72-0.124×15.4,14.72+0.124×15.4)=(12.81,16.63),
即某作业工人中约有95%的人血红蛋白量在12.81~16.63g/dl范围内。
如按横行分组时,得95%TI为12.75~16.69g/dl,与上述结果很接近。
表5 由R作容许区间估计的系数I
上行: I0.05,下行: I0.01
组数 | 每 组 例 数,n | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | ||||||||
1 | 8.99 | 2.25 | 1.44 | 1.13 | .985 | .889 | .823 | .768 | .734 | |||||||||
2 | 1.76 | .774 | .583 | .487 | .433 | .397 | .372 | .356 | .340 | |||||||||
3 | .882 | .486 | .360 | .306 | .276 | .257 | .240 | .229 | .219 | |||||||||
4 | .594 | .332 | .260 | .224 | .206 | .190 | .181 | .168 | .164 | |||||||||
5 | .443 | .256 | .206 | .175 | .164 | 148 | .139 | .134 | .127 | |||||||||
6 | .353 | .212 | .166 | .148 | .132 | .123 | .118 | .110 | .108 | |||||||||
7 | .296 | .179 | .143 | .124 | 117 | .105 | .097 | .095 | .092 | |||||||||
8 | .252 | .157 | .124 | .108 | .097 | .090 | .088 | .085 | .080 | |||||||||
9 | .225 | .140 | .108 | .094 | 088 | .079 | .076 | .072 | .066 | |||||||||
10 | .197 | .126 | .101 | .085 | .077 | .075 | .072 | .066 | .060 |
摘自 Bauer EL: A Statistical Manual for Chemists,second edition,p 166,Academic Press,1971
假设检验
样本均数与总体均数的比较 用L检验。按式(7)计算统计量L值。
式中μ为总体均数,为样本均数, R为极差。 算得L值后,查表6L界值表得P值,按所取检验水准作出推断结论。
表6 极差分析用L界值表
n | P(1):0.05 | 0.025 | 0.01 | 0.005 |
2 | 3.175 | 6.353 | 15.910 | 31.828 |
6 | 0.312 | 0.399 | 0.523 | 0.628 |
摘自 Beyer WH: Handbook of Tables for Probabi-lity and Statistics,second edition,p 380,CRCPress,Inc.,1979
配对计量资料的比较 用L检验。按式(8)计算统计量L值。
式中为配对计量数据差值d的均数, R为d的极差。算得L值后,查表6L界值表得P值,按所取检验水准作出推断结论。
两样本均数的比较 用M检验。按式(9)计算统计量M值。
式中1,与2、R1与R2分别为两样本的均数和极差。算得M值后,查表7M界值表,恒取n1≤n2,得P值,按所取检验水准作出推断结论。
表7 极差分析用M界值表
n1 | n2 | P(1):0.05 | 0.025 | 0.01 | 0.005 | n1 | n2 | P(1):0.05 | 0.025 | 0.01 | 0.005 | ||||||||||||||||||||||||||||||||||||||||||||||||
4 | 4 | .322 | .407 | .526 | .620 | 9 | 9 | .137 | .167 | .205 | .233 | ||||||||||||||||||||||||||||||||||||||||||||||||
10 | 10 | .125 | .152 | .186 | .210 | 5 | 5 | .247 | .307 | .387 | .450 | 12 | 12 | .107 | .130 | .158 | .178 | 14 | 14 | .094 | .114 | .138 | .156 | 6 | 6 | .203 | .250 | .312 | .329 | 16 | 16 | .085 | .103 | .124 | .139 | 18 | 18 | .077 | .093 | .113 | .126 | 7 | 7 | .174 | .213 | .263 | .301 | 20 | 20 | .071 | .086 | .104 | .116 | 8 | 8 | .153 | .187 | .231 | .262 |
摘自 Moore PG: The two-sample t-test based on range,Biometrika,44: 487,1957
例5 从加锰30.0μg/L的自来水中取5份水样测锰(μg/L),得28.9、29.0、30.0、29.1、28.5,算得均数=29.1。 问本法测得均数是否低于加入量。
H0: μ=30.0,H1: μ<30.0。单侧α=0.05。
查表6,n=5,得0.025>P>0.01,按α=0.05水准拒绝H0,接受H1,可认为本法测得的锰量低于加入量。
例6 10名受试者的尿样分别经4.5小时与28小时消化时间的尿汞测定值见表8,问不同消化时间的测定值有无差别?
H0: μ=0,H1: μ≠0。α=0.05。
表8 不同消化时间尿汞测定值(mg/L)
编号 | 消化时间(小时) | 差值 | 4.5 | 28 | |
1 | 0.040 | 0.055 | -0.015 | ||
-0.166 |
查表6,n=10,得0.05>P>0.02,按a=0.05水准拒绝H0,接受H1,故可认为两种消化时间的尿汞测定结果不同,消化时间为28小时者尿汞测定值较高。
例7 表9中为两组人尿中17酮类固醇的排出量,试比较两组均数有无差别。
表9 老年性慢性支气管炎病人与健康人
尿中17酮类固醇排出量(mg/24h)
健康人组 | 病人组 |
8.79 | 2.90 |
55.63 | 61.29 |
H0: μ1 =μ2,H1: μ1≠μ2。
a=0.05。
健康人组 n1= 10,1,=55.63/10=5.56,
R1=8.79-3.14=5.65;
病人组 n2=14,2,=61.29/14=4.38,
R2=7.10-2.09=5.01。
按式(9):
查表7,n1=10,n2=14,得0.10>P>0.05,按a=0.05水准不拒绝H0,故尚不能说明老年性慢性支气管炎病人尿中17酮类固醇的排出量与健康人不同。
![]() |