公卫百科首页>> 公卫百科>> 医学统计 >>假设检验

假设检验
 
摘要: 假设检验和参数估计是统计推断的两个重要领域。假设检验就是先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两个总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等; 然后用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策,采取措施。

假设检验和参数估计是统计推断的两个重要领域。假设检验就是先对总体的参数或分布作出某种假设,如假设总体均数(或总体率)为一定值,两个总体均数(或总体率)相等,总体服从正态分布或两总体分布相同等; 然后用适当的方法根据样本对总体提供的信息,推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策,采取措施。假设检验有参数法与非参数法,其意义见条目“非参数统计”。

显著性检验常作为假设检验的同义语。显著性检验一词历史上沿用已久,目前仍较普遍应用。显著性检验的思想至少可追溯到十八世纪,但至本世纪才以决策论的思想明确提出检验假设和备择假设,并引入第一类错误和第二类错误的概念,形成了系统的假设检验理论。

假设检验的一般步骤如下:

(1) 建立假设: 先要明确分析的目的要求。不同类型的资料,往往分析的指标也不同,如计量资料常作均数间的比较,计数资料常作率或构成比间的比较。又如两样本均数作比较时,若要求推断两组总体均数有无差别,这就包括甲组均数高于乙组和乙组均数高于甲组两种不同的情况,应该用双侧检验;若仅要求推断甲组均数是否高于乙组(比如从专业知识已知甲组均数不会低于乙组),就应该用单侧检验;同样,若仅要求推断甲组均数是否低于乙组(比如从专业知识已知甲组均数不会高于乙组),也应该用单侧检验。双侧检验比单侧检验常用,特别是对预初试验结果的考虑,思路宽些比窄些为好。

假设有两种: 一种是检验假设,符号为H0; 一种是备择假设,符号为H1。二者都是根据统计推断目的而提出的对参数或分布特征的假设。H0是从反证法的思想提出的,H1是和H0相联系的、对立的假设。例如,为了检验两总体均数是否相等,通常H0为两总体均数相等,即两种处理的效果无差别;H1为两总体均数不等,即两种处理的效果有差别。现以常用的样本均数的比较为例,用符号表示如下。

样本均数(其总体均数为μ)与某已知总体均数μ0作比较:

 

目 的

H0

H1

双侧检验
单侧检验

是否μ≠μ0
是否μ>μ0
或是否μ<μ0

μ=μ0
μ=μ0
μ=μ0

μ≠μ0
μ>μ0
μ<μ0

两样本均数(其总体均数分别为μ1与μ2)作比较:

 

目 的

H0

H1

双侧检验
单侧检验

是否 μ1≠μ2
是否 μ1>μ2
或是否 μ1<μ2

μ1=μ2
μ1=μ2
μ1=μ2

μ1≠μ2
μ1>μ2
μ1<μ2

(2) 确定检验水准: 亦称显著性水准,符号为α。α是假设检验发生第一类错误的概率。它是结合具体问题,联系第二类错误的概率确定的(详后)。以t检验为例,单侧检验时,α指t分布曲线下一侧尾部的面积 [图1(a)];双侧检验时,α指t分布曲线下两侧尾部面积的和[图1(b)]。通常取α=0.05或α=0.01。由图1可见,当α确定后,则横轴上的对应界值tα也就确定了。

图1 假设检验示意(以t检验为例)

(3) 选定检验方法和计算统计量的观察值: 根据研究设计的类型和统计推断的目的要求选用不同的检验方法。如完全随机设计中,两样本均数的比较常用t检验,多个样本均数的比较常用F检验,两个或多个样本率的比较常用x2检验等。

统计量属样本指标,是样本数据的函数。不同的检验方法要用不同的公式计算现有样本统计量的观察值,如t检验要用特定的公式计算t值,x2检验要用特定的公式计算x2值。不同的统计量通常有其特定的抽样分布,如图1的t分布。

(4) 求P值: P值是指由H0所规定的总体作随机抽样,获得等于或大于统计量观察值的概率。如图1,单侧检验时,P值是指横轴上等于或大于统计量观察值(取绝对值) t时,曲线下一侧尾部的面积;双侧检验时,P值是指横轴上等于或大于统计量观察值(取绝对值) t时,曲线下两侧尾部面积的和。求P值的方法一般有两种:①直接计算,如四格表的确切概率法; ②查统计量分布的分位数表(简称界值表)求得,此法最常用。如下表摘录了自由度v=20时t的界值,符号为tα,v。表中P(1) 为

t界值表(摘录)

v

P(1): 0.25

0.10

0.05

0.025

0.01

0.005

P(2): 0.50

0.20

0.10

0.05

0.02

0.01

20

0.687

1.325

1.725

2.086

2.528

2.845

单侧检验的概率,P(2)为双侧检验的概率。如单侧检验t0.05,20=1.725,它的意思是当v=20时,按统计量t的分布规律,理论上有5%的|t|值等于及大于1.725,或者说抽得统计量|t|等于及大于1.725的概率为0.05;同理,双侧t0.05,20=2.086,意思是说,当v=20时,抽得统计量|t|等于及大于2.086的概率为0.05。显然,双侧检验时,若算得统计量观察值|t|>2.086,则P<0.05;若|t|<2.086,则P>0.05,余类推。因而P值易由表直接查出。如双侧检验,v=20时,算得统计量观察值t=2.425,在界值2.086与2.528之间,则0.05>P>0.02;若t=2.086,则P=0.05; 若t=0.535,则P>0.5,余类推。由表及图1可见,自由度相同时,双侧t2α等于单侧tα,因为t分布是中心为0的对称分布。

(5) 作出推断结论: 当P≤α时,结论为按所取检验水准拒绝H0,接受H1;当P>α时,结论为按所取检验水准不拒绝H0,或者说接受H0。如H0为μ1 =μ2,H1为μ1≠μ2,拒绝H0,可认为两总体均数有差别;不拒绝H0,则尚不能认为两总体均数有差别,必要时可继续研究。这样作出结论的理由是:在H0成立的条件下,出现等于及大于统计量观察值(常取绝对值)的概率很小,P≤α,即现有样本信息不支持H0,因而拒绝它;相反,如P>α,即现有样本信息支持H0,就没有理由拒绝它,有时只好接受它。须知: 拒绝H0,不能认为H0肯定不成立,因为在H0成立的条件下,出现现有样本的概率虽小,但仍有可能出现,只是可能性很小而已;同理,不拒绝H0,也不能认为H0肯定成立。因为假设检验时,通过样本观察,必须对被检验的假设作出明确的判断,只能从“拒绝”或“不拒绝”中选择一个较为合理的决定。由此可见,统计推断的结论是具有概率性质的,不管是拒绝H0或不拒绝H0,都有可能发生错误,即第一类错误或第二类错误,但可以指出发生错误的概率有多大。

进行假设检验时应注意: ①资料来源必须遵循严密的随机抽样设计。②选用检验方法应符合其适用条件。③结论中拒绝H0,接受H1,习惯上亦称“显著”,不应误解为相差很大,或在医学上有显著的实用价值;反之,不拒绝H0,习惯亦称“不显著”,不应误解为相差不大,或肯定无差别。例如两样本均数作比较时,拒绝H0:μ1=μ2,接受H1:μ1≠μ2,不应误解为μ1与μ2的差别很大;不拒绝H0,不应误解为μ1与μ2相差不大或一定相等。习惯上将H0称为无效假设。为不致误解,有的统计学家主张不用“显著”、“无效”等词。④结论不能绝对化。因为检验水准是根据分析要求确定的,实际工作中,对同一问题要求α的大小往往有一定的灵活性,有时按α=0.05水准拒绝H0,而按α=0.01水准有可能不拒绝H0;再者,取同一检验水准,就现有样本不拒绝H0,但增加样本含量,由于减少抽样误差,有可能拒绝H0。因此,P接近α时,下结论要慎重。此外,拒绝H0可产生第一类错误,不拒绝H0可产生第二类错误。⑤报告结论时,应列出统计量的观察值,注明采用的是单侧检验或双侧检验及检验水准,并写出P值的确切范围,如0.05>P>0.02,以便读者按自选的检验水准作出结论。

第一类错误和第二类错误 由假设检验作出的推断结论可能发生两种错误: ①拒绝了实际上是成立的H0,这叫第一类错误或Ⅰ型错误。如图2,设H0: μ=0,H1:

图2 第一类错误与第二类错误示意(以单侧t检验为例)

μ>0。若μ确实为0,则H0。实际上是成立的,但由于抽样的偶然性,得到了较大的t值,因 |t|≥tα,P≤α,按所取检验水准α拒绝H0,接受H1,结论为μ>0,此推断当然是错误的。②不拒绝实际上是不成立的H0,这叫第二类错误或Ⅱ型错误。如图2,设H0: μ=0,H1: μ>0。若μ确实大于0,则H 0实际上是不成立的,但由于抽样的偶然性,得到了较小的t值,因 |t|<tα,P>α,按所取检验水准α接受H0,而未拒绝μ=0的错误假设,此推断当然也是错误的。

第一类错误的概率用α表示,假设检验时,根据分析者的要求确定其大小,如确定α=0.05,即第一类错误的概率为0.05,理论上100次抽样中发生这样的错误有5次;第二类错误的概率用β表示,它只有与特定的H1结合起来才有意义,但β值的大小很难确切估计,仅知样本含量确定时,α愈小,β愈大;反之α愈大,β愈小。如图2,移动界值tα,此理易明。图2中的1-β称为检验效能或把握度,即两总体确有差别,按α水准能发现它有相差的能力。例如1-β=0.90,若两总体确有差别,则理论上在100次抽样中,有90次能得出有差别的结论。总结如下:

客观实际

拒绝H0

不拒绝H0

H0成立
H0不成立

第一类错误(α)
推断正确(1-β)

推断正确(1-α)
第二类错误(β)

α和β可以根据分析要求适当控制。要同时减少α及β,唯一的方法是增加样本含量;当样本含量确定后,虽然不能同时减少α和β,但可以通过确定α值来控制β。若要求重点在减少α,一般取α=0.01;若重点在减少β,一般取α=0.05,因为β虽属未知,但估计比取α=0.01时小些。当然α亦可取其他水准,须视具体问题的容许大小而定,不宜千篇一律。

发表评价

词条信息

  • 浏览次数:15629 次
  • 发布时间: 2013-01-06
  • 更新时间: 2013-01-06

参与评价:

  • 词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
热门标签

中国疾病预防控制中心 版权所有 京ICP备11024750
中国疾控中心信息中心 内容管理与技术支持 建议使用1024*768 分辨率,IE8.0以上
地址:北京市昌平区昌百路155号 邮编:102206 热线电话:13911841040