可疑值的取舍-公卫百科-公共卫生科学数据中心

可疑值的取舍

摘要: 在一组观察值中有时出现少数过大或过小的极端值，使人怀疑发生了错误，这种数值称为可疑值。对可疑值首先应反复检查、核对，寻找错误原因，加以纠正。若找不出错误的任何原因，不能随意舍去，可增加观察次数，或用下述统计方法判断取舍。

在一组观察值中有时出现少数过大或过小的极端值，使人怀疑发生了错误，这种数值称为可疑值。对可疑值首先应反复检查、核对，寻找错误原因，加以纠正。若找不出错误的任何原因，不能随意舍去，可增加观察次数，或用下述统计方法判断取舍。

一组等精度测量数据中，大误差出现的概率是很小的。按正态分布理论，离均差(观察值Xi与均数之差)的绝对值超过3Σ(Σ为总体标准差，Σ未知时可用样本标准差S估计之)的概率仅为0.0027≐1/370，因此有人将3Σ作为界值，定出： |XI-|≥3σ则Xi可舍去。但界值3σ是在例数n为∞的前提下作出的。当n有限，特别是n较小时，这个界值就不适用了，因此界值应随例数而改变。此外，这只是判断数据是否偏离正态，至于偏到何种程度才可以舍弃，各种判断方法的假设条件不同，界值也不同。可疑值取舍的判断方法有多种，常用的有Chauvenet法、Smirnov法和Grubbs法，经模拟试验以Grubbs法效果较好。它们的计算方法相同，仅界值不同，计算步骤如下：

(1) 计算观察值(包括可疑值在内) 的均数X与标准差s，并按下式计算T值。

式中X_i为可疑值。

(2)查Tα，n界值表作出判断。表中所列为不同的界值T_α，n ，α为第一类错误的概率，n为样本含量。若T<T_α，n，X_i不能舍去;若T≥T_α，n，则X_i可舍去。

(3)若可疑值不止一个，则先判断离均差绝对值最大者，若可舍去，再将该值舍去后重新计算X与s，按上法继续判断，直到不能舍去时为止。

这些方法不适用于偏态分布资料。在一组观察值中可疑值总是少数，如个数较多，则应检查观察值是否服从正态分布。Chauvenet界值是在频率趋近于概率的前提下建立的，当n<10时，不太可靠。

检验可疑值用Tα，_n界值表

n	Chauvenet法[1] (α=1/2n)	Smirnov法[2] (α=0.05)	Grubbs法[3] (α=0.05)
6 7 8 9 10	1.73 1.79 1.86 1.92 1.96	1.996 2.093 2.172 2.237 2.294	1.82 1.94 2.03 2.11 2.18
11 12 13 14 15	2.00 2.04 2.07 2.10 2.13	2.343 2.387 2.429 2.461 2.493	2.23 2.29 2.33 2.37 2.41
16 17 18 19 20	2.16 2.18 2.20 2.22 2.24	2.523 2.551 2.577 2.600 2.623	2.44 2.47 2.50 2.53 2.56
25 30 35 40 50	2.33 2.39 2.45 2.50 2.58	2.717	2.66 2.75 2.82 2.87 2.96
60 80 100	2.64 2.74 2.81		3.03 3.14 3.21

摘自 (1)张世箕：测量误差及数据处理，45页，科学出版社，1979

(2) Grubbs FE： Sample criteria for testing outlying observation，Annals of MathStatistics，21： 27～58，1952

(3) Grubbs FE：Procedures for detecting out-lying observations，Technometrics，11：1～21，1969

例用分光光度计测得血中转氨酶标准管的光密度为0.16，0.16，0.17，0.17，0.19，0.30，问0.30可否舍去。

查T_α，n界值表： Chauvenet法 T_1/2×6，6 =1.73，

Smirnov法 T_{0. 05，6}＝1.996，Grubbs法 T_0.05，6 =1.82。

今T>T_α，n，故按任一方法的界值，0.30均可舍去。

复制全文下载保存发到邮箱

发表评价

词条信息

浏览次数:16001 次
发布时间: 2012-12-17
更新时间: 2012-12-17

参与评价：

推荐本词条
推荐量：0

词条内容仅供参考，如果您需要解决具体问题（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

点击关闭

热门标签