计量资料若频数分布近于正态分布,可拟合正态曲线以估计其总体分布。此法常用于重复测定误差的估计和正常值范围的估计。正态曲线拟合的方法步骤如下:
(1)计算均数X和校正标准差sc。分别按式(1)、(2)。
式中f为各组段的频数,i为组距,X0为假定均数,x=(组中值-X0)/i,n为样本含量,1/12为归组校正数,或称Sheppard校正数。用频数表计算标准差时,以组中值代替本组段各观察值,而组中值两侧的频数并非对称分布,而是离均数近的一侧稍多,这样算得的标准差往往略微夸大了实际的变异度。采用校正数就是为了消除此夸大的部分,使拟合的正态曲线更接近实际的频数分布。若不用频数表而直接按原观察值计算标准差,则无须校正。
(2)计算标准正态离差u。按式(3)。
式中X为各组段上、下限。如表2资料X=14.18,sc=1.21,第一个组段的下限为10.0,因此,u=|10-14.18|/1.21=3.45,余类推,如表2第(4)栏。在X所在组段,还应写出X=X时,u=0.00。
(3) 求z。由表1查出与u对应的标准正态曲线的纵坐标z,如表2第(5)栏。
(4)计算与原资料频数分布各组段上、下限相应的正态曲线之纵坐标Y。按式(4)。
式中sc/i为以组距为单位的校正标准差。如表2资料n=110,i=0.5,sc=1.21,则常数。因此,表2第(5)栏乘以45.4545即得Y,如表2第(6)栏。比如z=0.001时,Y=0.001(45.4545)=0.05;又u=0.00,z=0.399时,Y=0.399(45.4545)=18.14,即拟合的正态曲线上,X=时的纵坐标, 也就是曲线的顶点。
表1 标准正态曲线的纵坐标z
u | .00 | .01 | .02 | .03 | .04 | .05 | .06 | .07 | .08 | .09 |
.0 | .399 | .399 | .399 | .399 | .399 | .398 | .398 | .398 | .398 | .397 |
.1 | .397 | .397 | .396 | .396 | .395 | .394 | .394 | .393 | .393 | .392 |
.6 | .333 | .331 | .329 | .327 | .325 | .323 | .321 | .319 | .317 | .314 |
1.1 | .218 | .215 | .213 | .211 | .208 | .206 | .204 | .201 | .199 | .197 |
1.6 | .111 | .109 | .107 | .106 | .104 | .102 | .101 | .099 | .097 | .096 |
2.1 | .044 | .043 | .042 | .041 | .040 | .040 | .039 | .038 | .037 | .036 |
2.6 | .014 | .013 | .013 | .013 | .012 | .012 | .012 | .011 | .011 | .011 |
3.1 | .003 | .003 | .003 | .003 | .003 | .003 | .003 | .003 | .003 | .002 |
3.6 | .001 | .001 | .001 | .001 | .001 | .001 | .000 | 000 | .000 | .000 |
本表按条目“正态分布”式(4)算得。
(5)作图。 以频数表组段的上、下限X与Ŷ作图,即可绘出拟合的正态曲线(如图)。
(6)拟合优度检验。必要时可用,见条目 “频数分布的拟合优度”。
例 110名男工人的血红蛋白(g/dl)频数分布见表2第(1)、(2)栏。试拟合一正态曲线。
(1)计算与sc,按式(1)~(2)。
X0=14.25,i=0.5,x见表2第(3)栏,n=110,
Σfx=-15,∑fx2=649。
(2)求u值。见第(4)栏。
(3)求z值。按第(4)栏u由表1查得各z值,见第(5)栏。(4)求Ŷ值。按式(4):
将第(5)栏各z值代入,得第(6)栏。
(5)以表2X及Ŷ作图。其中直方图是原资料的频数分布,可见拟合的正态曲线与它颇吻合。
表2 正态曲线拟合的计算
表2数据拟合正态曲线
![]() |