公卫百科首页>> 公卫百科>> 医学统计 >>频数分布的拟合优度

频数分布的拟合优度
 
摘要: 对样本的频数分布拟合某理论分布后,进而检验样本实际分布与理论分布是否符合,或样本是否取自某已知分布的总体,称为频数分布的拟合优度检验。


对样本的频数分布拟合某理论分布后,进而检验样本实际分布与理论分布是否符合,或样本是否取自某已知分布的总体,称为频数分布的拟合优度检验。常用x2检验、对数似然比检验或Kolmogorov检验(А.Н.Колмо-горов,1933)。x2检验和对数似然比检验用于计数资料或计量的频数分布资料的拟合优度检验,当样本含量充分大时,两种检验方法等价。Kolmogorov检验适用于理论总体的参数已知的计量的非频数分布资料,对前述资料亦可用,但较保守,即检验假设被拒绝的概率偏小。当理论总体的参数未知,而用样本统计量作估计时,本法亦偏保守。

拟合的理论分布曲线不同,求其理论频数的方法各异。如拟合正态曲线时,求理论频数F的方法是: ①求频数表各组段上、下限X的标准正态离差均数μ与标准差σ未知时,则分别以样本均数X与校正标准差sc作为估计值(见条目“正态曲线拟合”),如表2第(3)栏。②按u值查标准正态分布曲线下的面积表(见条目“正态分布”),得自-∞到u的面积Φ(u),如表2由第(3)栏u值查得第(4)栏。③求曲线下各组段的面积δ,即相邻两Φ(u)之差,如表2第(5)栏。注意:“11.0~”组段以下的δ=0.0043;“17.0~”组段以上的δ=1-0.9901=0.0099。④按式(1)求理论频数F。如表2第(6)栏。

F=nδ,(1)

式中n为样本含量。

x2检验 统计量x2值的计算按式(2)。

式中f为各组段的实际频数; F为按不同理论分布算得的各组段之理论频数,一般要求不得小于1(或5),否则应与相邻组段合并,这时相应组段的实际频数亦合并;当总体参数已知时,r=0,自由度v为合并后理论频数的个数k减1,如总体参数未知而以相应的统计量作为估计值时,则r为用去的统计量的个数,如拟合正态曲线时,用去二个统计量X与sc,r为2。算得x2值后,查x2界值表得P值,按所取检验水准α作出推断: 若P≤α,可认为实际分布与所拟合的理论分布不符,若P>α,则不能拒绝实际频数与理论频数相符的假设。

对数似然比检验 对数似然比的2倍,记作G,它的分布近似x2分布。若自由度大于1,甚至对含量小的样本,x2的近似程度也是很满意的,而且对F的大小可不限制。G的计算用式(3)。

式中符号的意义及自由度的计算等同上述x2检验。求出G值后,查x2界值表得P值,作出推断结论(仍同x2检验)。

Kolmogorov检验 也称Kolmogorov-Smirnov单一样本检验,其方法步骤如下:

(1)将n个观察值X从小到大排列,秩次为i的观察值记为Xi,分别计算累计实际频率fn(Xi)。如表3第(1)~(3)栏,i=2时,X2=6,n=20,小于及等于6的累计频率f20(6)=2/20=0.10,余仿此。

(2)求拟合的累计理论频率,即分布函数F(Xi)。如表3第(5)、(6)栏,系拟合正态分布的计算过程,第(5)栏u=(X-μ)/σ,以u查标准正态曲线下面积表得-∞到u的面积即F(Xi)见第(6)栏。当总体标准差σ未知而需用样本标准差s作为估计值时,若s由原始数据算得,不取校正标准差Sc。

(3)按式(4)求统计量D值。

式(4)表示D为所有Xi中,fn(Xi)与F(Xi)之差或fn(Xi-1)与F(Xi)之差的绝对值之最大者。如表3第(7)、(8)栏中之最大值为0.2679*。为便于计算 |fn(Xi-1)-F(Xi)|,表3列出第(4)栏,系将第(3)栏数字下移一行。式(4)的意义可用表3资料图示如下:

表3资料的Kolmogorov检验图示

图中曲线为拟合的累计理论频率F(Xi),各平行线段为累计实际频率fn(Xi)。|fn(Xi)-F(Xi)|表示线段左端与曲线的纵向距离,|fn(Xi-1)-F(Xi)|表示线段右端与曲线的纵向距离,D为最大差值,可能在某线段的左端,也可能在另一线段的右端,故式(4) 要求两端都计算。

(4)求得D值后,查表1得P值,按所取检验水准作出推断结论。由于式(4)仅是D值的近似计算,理论上,由此算得的结果略偏小,故由表1查得的P值略偏大,致使拒绝检验假设稍保守,因而所得D值略小于界值时,结论要慎重。

例1 110名男工人的血红蛋白(g%)频数分布见表2第(1)、(2)栏,已拟合正态分布。试检验其拟合优度。

H0: 实际频数与正态分布的理论频数符合,

H1: 实际频数与正态分布的理论频数不符合。

α=0.5。

(1) x2检验。计算见表2第(3)~(7)栏得x2=1.76,自由度=13-2-1=10,查x2界值表得P>0.995,按α=0.5水准不拒绝H0。可认为实际频数与正态分布的理论频数相符合,拟合优度好。

(2)对数似然比检验。将表2第(2)、(6)栏数据代入式(3):

表1 Kolmogorov检验用D界值表

摘自Miller HL: Table of percentage points of Kolmogorov statistics,J. Amer. Statist Assoc.,51: 111,1956

表2 正态分布拟合优度的x2检验

v=13-2-1=10。

结论同x2检验。

例2 已知某地正常成人血铅含量的均数为17μg/100g,标准差为10μg/100g,今在该地某厂抽查20名正常成年工人的血铅含量(μg/100g),见表3第(1)、(2)栏。问此资料可否认为来自正态总体N(17,102)?

表3 正态分布拟合优度的Kolmogorov检验

H0: 样本来自正态总体N(17,102),

H1: 样本非来自正态总体N(17,102)。

α=0.2。

本例已知总体参数,用Kolmogorov检验。计算见表3,综观第(7)、(8)两栏,其中数值最大者为0.2679*,今n=20,查表1得0.10>P>0.05,按α=0.2水准拒绝H0,接受H1,故可认为此样本不是来自正态总体N(17,102)。

发表评价

词条信息

  • 浏览次数:8768 次
  • 发布时间: 2013-01-06
  • 更新时间: 2013-01-06

参与评价:

  • 词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
热门标签

中国疾病预防控制中心 版权所有 京ICP备11024750
中国疾控中心信息中心 内容管理与技术支持 建议使用1024*768 分辨率,IE8.0以上
地址:北京市昌平区昌百路155号 邮编:102206 热线电话:13911841040