在一组观察值中有时出现少数过大或过小的极端值,使人怀疑发生了错误,这种数值称为可疑值。对可疑值首先应反复检查、核对,寻找错误原因,加以纠正。若找不出错误的任何原因,不能随意舍去,可增加观察次数,或用下述统计方法判断取舍。
一组等精度测量数据中,大误差出现的概率是很小的。按正态分布理论,离均差(观察值Xi与均数之差)的绝对值超过3Σ(Σ为总体标准差,Σ未知时可用样本标准差S估计之)的概率仅为0.0027≐1/370,因此有人将3Σ作为界值,定出: |XI-|≥3σ则Xi可舍去。但界值3σ是在例数n为∞的前提下作出的。当n有限,特别是n较小时,这个界值就不适用了,因此界值应随例数而改变。此外,这只是判断数据是否偏离正态,至于偏到何种程度才可以舍弃,各种判断方法的假设条件不同,界值也不同。可疑值取舍的判断方法有多种,常用的有Chauvenet法、Smirnov法和Grubbs法,经模拟试验以Grubbs法效果较好。它们的计算方法相同,仅界值不同,计算步骤如下:
(1) 计算观察值(包括可疑值在内) 的均数X与标准差s,并按下式计算T值。
式中Xi为可疑值。
(2)查Tα,n界值表作出判断。表中所列为不同的界值Tα,n ,α为第一类错误的概率,n为样本含量。若T<Tα,n,Xi不能舍去;若T≥Tα,n,则Xi可舍去。
(3)若可疑值不止一个,则先判断离均差绝对值最大者,若可舍去,再将该值舍去后重新计算X与s,按上法继续判断,直到不能舍去时为止。
这些方法不适用于偏态分布资料。在一组观察值中可疑值总是少数,如个数较多,则应检查观察值是否服从正态分布。Chauvenet界值是在频率趋近于概率的前提下建立的,当n<10时,不太可靠。
检验可疑值用Tα,n界值表
n | Chauvenet法[1] (α=1/2n) | Smirnov法[2] (α=0.05) | Grubbs法[3] (α=0.05) |
6 7 8 9 10 | 1.73 1.79 1.86 1.92 1.96 | 1.996 2.093 2.172 2.237 2.294 | 1.82 1.94 2.03 2.11 2.18 |
11 12 13 14 15 | 2.00 2.04 2.07 2.10 2.13 | 2.343 2.387 2.429 2.461 2.493 | 2.23 2.29 2.33 2.37 2.41 |
16 17 18 19 20 | 2.16 2.18 2.20 2.22 2.24 | 2.523 2.551 2.577 2.600 2.623 | 2.44 2.47 2.50 2.53 2.56 |
25 30 35 40 50 | 2.33 2.39 2.45 2.50 2.58 | 2.717 | 2.66 2.75 2.82 2.87 2.96 |
60 80 100 | 2.64 2.74 2.81 | 3.03 3.14 3.21 |
摘自 (1)张世箕:测量误差及数据处理,45页,科学出版社,1979
(2) Grubbs FE: Sample criteria for testing outlying observation,Annals of MathStatistics,21: 27~58,1952
(3) Grubbs FE:Procedures for detecting out-lying observations,Technometrics,11:1~21,1969
例 用分光光度计测得血中转氨酶标准管的光密度为0.16,0.16,0.17,0.17,0.19,0.30,问0.30可否舍去。
查Tα,n界值表: Chauvenet法 T1/2×6,6 =1.73,
Smirnov法 T0. 05,6=1.996,Grubbs法 T0.05,6 =1.82。
今T>Tα,n,故按任一方法的界值,0.30均可舍去。
![]() |