正态性检验是推断资料是否服从正态分布,或样本是否来自正态总体的统计方法。有些统计方法只适用于正态分布或近似正态分布资料,如用均数和标准差描述资料的分布特征,用正态分布法确定正常值范围等。因此,在应用这些方法时,常要进行正态性检验。
正态分布有两个特征: 对称和正态峰。分布不对称就是偏态。峰偏左,长尾向右侧(即观察值较大一端)伸延的叫右偏态,此时均数与众数之差为正值,故亦称正偏态;峰偏右,长尾向左侧(即观察值较小一端)伸延的叫左偏态,此时均数与众数之差为负值,故亦称负偏态;见图1。图2中虚线是正态峰,两条实线:其一峰态尖峭而尾部伸展,两尾部曲线在正态曲线之上,故尾部面积分布与正态分布相比偏多,而中间部分偏少,叫尖峭峰;另一峰顶平阔而尾部短促,两尾部曲线在正态曲线之下,尾部面积与正态分布相比偏少,而中间部分稍多,叫平阔峰。
正态性检验的方法有两大类: 一是对偏度和峰度各用一个指标来评定,其中矩法效率较高;另一类是仅用一个指标来综括评定,W检验效率较高,它适用于样本含量少于100,有表可查,较为简便。D检验效率也好,不论样本含量多少均适用。正态概率纸检验很简便,适用于作粗略的判断。本条目将分别加以介绍。至于传统的x2检验及Kolmogorov(колмогоров)检验,适用于任意频数分布的拟合优度检验,并非检验正态性的专用方法,效率不够高。单纯作对称性检验的方法如Pearson法与Bowley法均较常用,但对称分布并不都是正态分布,故从略。若要求粗略,资料典型,也可仅从频数表考查分布的对称性。读者可按不同要求选用不同的方法。
图1 正态与偏态分布曲线
图2 曲线的峰态
矩法 亦称动差法。它是应用数学上矩的原理来检验偏度系数和峰度系数。偏度系数等于0为对称,大于0为正偏态,小于0为负偏态;峰度系数等于0为正态峰,大于0为尖峭峰,小于0为平阔峰。以g1和g2分别表示样本偏度系数和峰度系数,因有抽样误差,故须通过假设检验来作统计推断。方法步骤如下:
(1) 分别按式(1)及式(2)计算g1及g2。
当用频数表计算时,式(1)、(2)中x为缩简值,x=(组中值-假定均数)/组距,f为各组段的频数,n=∑f。这时由于用组中值代替观察值,会引入一定误差,为准确计,可施以Sheppard归并校正。但此校正影响甚微,实际工作中常可省去,因而此处不作介绍。
当用原始数据计算时,式(1)、(2)中x为观察值,f=1,n为样本含量。
(2) 分别按式(3)及式(4)计算g1及g2的标准误σg1及σg2。
(3)分别按式(5)及式(6)计算ug1及ug2。
(4)查u界值表得P值,按所取检验水准作出推断结论。
W检验(S. S. Shapiro,M. B. Wilk,1965) 适用于样本含量n≤50时,方法步骤如下:
(1)将n个观察值Xi从小到大依次排列编秩:
X1 ≤X2≤…≤Xn,
秩次i=1,2,3,…,n。为简化计算,将观察值从小到大排成两栏,如表4第(2)、(3)栏,第(2)栏自上往下排,第(3)栏自下往上排,这样i=1行,Xi=X1=0.823最小,X(n-i+1)=Xn=1.248最大,两数之差记入第(4)栏,余类推。
(2) 由表1查出当样本含量n确定时的诸系数ai,如表4第(5)栏。当n为奇数时,表1对应于中位数的秩次(n+1/2)的ai均为0,故中位数可只计秩次,不参加第(6)栏的计算。
表1 正态性W检验用系数ai
n i | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|
1 | .7071 | .7071 | .6872 | .6646 | .6431 | .6233 | .6052 | .5888 | .5739 |
|
n i | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
1 | .5601 | .5475 | .5359 | .5251 | .5150 | .5056 | .4968 | .4886 | .4808 | .4734 |
6 | .0000 | .0303 | .0539 | .0727 | .0880 | .1005 | .1109 | .1197 | .1271 | .1334 |
n i | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
1 | .4643 | .4590 | .4542 | .4493 | .4450 | .4407 | .4366 | .4328 | .4291 | .4254 |
6 | .1399 | .1443 | .1480 | .1512 | .1539 | .1563 | .1584 | .1601 | .1616 | .1630 |
11 | .0000 | .0122 | .0228 | .0321 | .0403 | .0476 | .0540 | .0598 | .0650 | .0697 |
n i | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 |
1 | .4220 | .4188 | .4156 | .4127 | .4096 | .4068 | .4040 | .4015 | .3989 | .3964 |
6 | .1641 | .1651 | .1660 | .1667 | .1673 | .1678 | .1683 | .1686 | .1689 | .1691 |
11 | .0739 | .0777 | .0812 | .0844 | .0873 | .0900 | .0924 | .0947 | .0967 | .0986 |
16 | .0000 | .0068 | .0131 | .0187 | .0239 | .0287 | .0331 | .0372 | .0409 | .0444 |
(续表)
n i | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 |
1 | .3940 | .3917 | .3894 | .3872 | .3850 | .3830 | .3808 | .3789 | .3770 | .3751 |
6 | .1693 | .1694 | .1695 | .1695 | .1695 | .1695 | .1695 | .1693 | .1692 | .1691 |
11 | .1004 | .1020 | .1035 | .1049 | .1062 | .1073 | .1085 | .1095 | .1105 | .1113 |
16 | .0476 | .0506 | .0534 | .0560 | .0584 | .0607 | .0628 | .0648 | .0667 | .0685 |
21 | .0000 | .0045 | .0087 | .0126 | .0163 | .0197 | .0229 | .0259 | .0288 | .0314 |
录自 Shapiro SS,Wilk MB:Analysis of variance test for normality (complete sample),Biometrika,52(3 and 4): 591~611,1965 (续表)
(3)按式(7)计算W值,
式中分子部分的∑,当n是偶数时,i=1,2,…n/2;当
n是奇数时,i=1,2,…(n-1)/2。式(7)的分子即表4第(6)栏合计数的平方,分母中Xi,i=1,2,3,…,n。
(4)得W值后按n查表2得P值,按所取检验水准作出推断结论。
表2 正态性检验用W界值表
样本含量 | P | 0.05 | 0.10 | 0.50 | 0.90 | |||
3 | .767 | .789 | .959 | .998 | ||||
6 | .788 | .826 | .927 | .974 | ||||
11 | .850 | .876 | .940 | .973 | ||||
16 | .887 | .906 | .952 | .976 |
样本含量 | P | 0.05 | 0.10 | 0.50 | 0.90 | |||
21 | .908 | .923 | .960 | .980 | ||||
26 | .920 | .933 | .965 | .982 | ||||
31 | .929 | .940 | .967 | .983 | ||||
36 | .935 | .945 | .970 | .984 | ||||
41 | .941 | .950 | .972 | .985 | ||||
46 | .945 | .953 | .974 | .985 |
录自 Shapiro SS,Wilk MB: Analysis of variance
test for normality (complete sample),Biome-trika 52(3 and 4): 591~611,1965
另有W′检验(S. S. Sharpiro,R.S.Francia,1972),适用于50<n<100时的正态性检验,类似上述W检验,只是所用的ai及W界值不同,从略。
D检验(R. B. D'Agostino,1971) 方法步骤如下:(1) 将原始数据依次排队、编秩,同W检验方法步骤(1)。
(2) 按式(8)计算D值,
式中符号意义同W检验,式(8)分子算法如表4第(8)栏合计数。
若原始数据一律从小到大依次排列 (不按上述排成两栏),亦可按式(9)计算D值。
(3) 查表3得P值,按所取检验水准作出推断结论。定P值时,先从表3查到样本含量n (若表中查不到,可用稍大或最相近的n代替)所在的一行,再找到算得的D值在该行的位置,即可得出相应的P值。但应注意:若D值在P=0.20的上、下界之间,则P>0.20。
表3的界值有四位有效数字,故计算D值的过程应至少取五位有效数字,最后精确到四位。正态概率纸检验 方法步骤如下:
(1) 计算累计频率 (%)。有两种情况: ①对原始数据——先将n个观察值Xi由小到大排列编秩:
X1≤X2≤…≤Xn,
秩次i=1,2,3,…,n。可仿上述W检验方法步骤(1),将Xi排在两栏,再按式(10)计算累计频率Fi,
上式计算结果只取整数位,如表4第(9)、(10)栏。注意:表4第(9)、(10)两栏同行相加总和为100,故(10)栏可用倒推法求得较为简便,如第一行,100-3=97。当n为奇数时,中位秩的累计频率必为50%,亦可不必计算,列表时若省去,作图时应补入。②对频数表资料——如表5第(1)、(2)栏,须先计算各组段的累计频数,再分别除以n,即得第(8)栏的累计频率。
(2) 将资料标在正态概率纸上。正态概率纸的纵横轴,一为算术尺度(标出观察值的大小,如表4第(2)、(3)栏;表5第(1)栏各组段的上限),一为概率单位尺度(标出累计频率)。若无正态概率纸,可将累计频率作概率单位变换 (见条目“百分数的概率单位变换”) 如表5第(9)栏,然后将资料标在方格坐标纸上,结果与用正态概率纸相同。
(3) 作出推断结论。若散点基本在一条直线上,则不能否定分布的正态性,若与直线距离较远,则可怀疑数据的正态性。
表3 正态性检验用D界值表
样本含量 | 下 界 | 上 界 | P:0.05 | 0.10 | 0.20 | 0.20 | 0.10 | 0.05 | ||||
10 | .2513 | .2573 | .2632 | .2835 | .2843 | .2849 | ||||||
22 | .2629 | .2670 | .2705 | .2853 | .2859 | .2864 | ||||||
32 | .2668 | .2698 | .2729 | .2854 | .2862 | .2867 | ||||||
42 | .2691 | .2717 | .2743 | .2854 | .2861 | .2867 | ||||||
60 | .2717 | .2737 | .2757 | .2852 | .2860 | .2865 | ||||||
120 | .2752 | .2765 | .2779 | .2847 | .2853 | .2858 | ||||||
250 | .2776 | .2784 | .2793 | .2841 | .2846 | .2850 | ||||||
500 | .2791 | .2796 | .2802 | .2836 | .2840 | .2843 | ||||||
1000 | .2800 | .2804 | .2808 | .2832 | .2835 | .2838 |
摘自 Zar JH: Biostatistical Analysis,p 504 Prenti-
ce-Hall,Inc.,1974
例1 某地测得20例20~50岁正常人血浆结合125碘-三碘甲状腺原氨酸(125I-T3)树脂摄取比值,如表4第(2)、(3)栏,问此资料是否服从正态分布?
H0:总体服从正态分布,H1:总体非正态分布。
a=0.10。
表4 用原始数据以三种方法作正态性检验计算表
(1)矩法。由表4第(2)、(3)栏资料得n=20,∑X=20.335,∑X2=20.868597,∑X3=21.618669,∑X4=22.609867,代入式(1)~(6)得
查u界值表得0.50>P>0.20;
查u界值表得P>0.50。
无论就偏度或峰度检验,按α=0.10水准均不拒绝H0,可以认为总体服从正态分布。
(2) W检验。今n=20,∑X4=20.335,∑X2i=20.868597,连同表4第(6)栏合计,代入式(7)得
查表2,0.90>P>0.50,结论与矩法一致。
(3) D检验。今n=20,∑Xi=20.335,∑Xi2=20.868597,连同表4第(8)栏合计,代入式(8)得
查表3得P>0.20,结论与矩法一致。
(4)正态概率纸检验。将表4第(2)栏与第(9)栏,第(3)栏与第(10)栏的对应点子,标在正态概率纸上,如图3散点,这些点子基本上近于一直线,故可认为此资料服从正态分布。
图3 正态概率纸检验
例2 若例1为120例调查资料,经整理成频数表,如表5第(1)、(2)栏,问此资料是否服从正态分布?
H0:总体服从正态分布,H1:总体非正态分布。
α=0.10。
表5 用频数表以两种方法作正态性检验计算表
(1) 矩法。将表5第(2)、(4)~(7)栏合计代入式(1)~(6)得
查u界值表得0.50>P>0.20。
无论就偏度或峰度检验,按a=0.10水准均不拒绝H0,故可以认为总体服从正态分布。
(2) 正态概率纸检验。将表5第(1)栏各上限和对应的第(9)栏数值标在方格坐标纸上,如图4,各散点基本在一条直线上,
图4 用方格坐标纸作正态性检验
故可以认为此资料服从正态分布。
![]() |