假设检验-公卫百科-公共卫生科学数据中心

假设检验

摘要: 假设检验和参数估计是统计推断的两个重要领域。假设检验就是先对总体的参数或分布作出某种假设，如假设总体均数(或总体率)为一定值，两个总体均数(或总体率)相等，总体服从正态分布或两总体分布相同等; 然后用适当的方法根据样本对总体提供的信息，推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策，采取措施。

假设检验和参数估计是统计推断的两个重要领域。假设检验就是先对总体的参数或分布作出某种假设，如假设总体均数(或总体率)为一定值，两个总体均数(或总体率)相等，总体服从正态分布或两总体分布相同等; 然后用适当的方法根据样本对总体提供的信息，推断此假设应当拒绝或不拒绝。其结果将有助于研究者作出决策，采取措施。假设检验有参数法与非参数法，其意义见条目“非参数统计”。

显著性检验常作为假设检验的同义语。显著性检验一词历史上沿用已久，目前仍较普遍应用。显著性检验的思想至少可追溯到十八世纪，但至本世纪才以决策论的思想明确提出检验假设和备择假设，并引入第一类错误和第二类错误的概念，形成了系统的假设检验理论。

假设检验的一般步骤如下：

(1) 建立假设：先要明确分析的目的要求。不同类型的资料，往往分析的指标也不同，如计量资料常作均数间的比较，计数资料常作率或构成比间的比较。又如两样本均数作比较时，若要求推断两组总体均数有无差别，这就包括甲组均数高于乙组和乙组均数高于甲组两种不同的情况，应该用双侧检验;若仅要求推断甲组均数是否高于乙组(比如从专业知识已知甲组均数不会低于乙组)，就应该用单侧检验;同样，若仅要求推断甲组均数是否低于乙组(比如从专业知识已知甲组均数不会高于乙组)，也应该用单侧检验。双侧检验比单侧检验常用，特别是对预初试验结果的考虑，思路宽些比窄些为好。

假设有两种：一种是检验假设，符号为H₀; 一种是备择假设，符号为H1。二者都是根据统计推断目的而提出的对参数或分布特征的假设。H0是从反证法的思想提出的，H₁是和H₀相联系的、对立的假设。例如，为了检验两总体均数是否相等，通常H₀为两总体均数相等，即两种处理的效果无差别;H₁为两总体均数不等，即两种处理的效果有差别。现以常用的样本均数的比较为例，用符号表示如下。

样本均数(其总体均数为μ)与某已知总体均数μ0作比较：

	目的	H0	H1
双侧检验单侧检验	是否μ≠μ0 是否μ>μ0 或是否μ<μ0	μ=μ0 μ=μ0 μ=μ0	μ≠μ0 μ>μ0 μ<μ0

两样本均数(其总体均数分别为μ₁与μ2)作比较：

	目的	H0	H1
双侧检验单侧检验	是否 μ1≠μ2 是否 μ1>μ2 或是否 μ1<μ2	μ1=μ2 μ1=μ2 μ1=μ2	μ1≠μ2 μ1>μ2 μ1<μ2

(2) 确定检验水准：亦称显著性水准，符号为α。α是假设检验发生第一类错误的概率。它是结合具体问题，联系第二类错误的概率确定的(详后)。以t检验为例，单侧检验时，α指t分布曲线下一侧尾部的面积 [图1(a)];双侧检验时，α指t分布曲线下两侧尾部面积的和[图1(b)]。通常取α=0.05或α=0.01。由图1可见，当α确定后，则横轴上的对应界值tα也就确定了。

图1 假设检验示意(以t检验为例)

(3) 选定检验方法和计算统计量的观察值：根据研究设计的类型和统计推断的目的要求选用不同的检验方法。如完全随机设计中，两样本均数的比较常用t检验，多个样本均数的比较常用F检验，两个或多个样本率的比较常用x²检验等。

统计量属样本指标，是样本数据的函数。不同的检验方法要用不同的公式计算现有样本统计量的观察值，如t检验要用特定的公式计算t值，x²检验要用特定的公式计算x²值。不同的统计量通常有其特定的抽样分布，如图1的t分布。

(4) 求P值： P值是指由H₀所规定的总体作随机抽样，获得等于或大于统计量观察值的概率。如图1，单侧检验时，P值是指横轴上等于或大于统计量观察值(取绝对值) t时，曲线下一侧尾部的面积;双侧检验时，P值是指横轴上等于或大于统计量观察值(取绝对值) t时，曲线下两侧尾部面积的和。求P值的方法一般有两种：①直接计算，如四格表的确切概率法; ②查统计量分布的分位数表(简称界值表)求得，此法最常用。如下表摘录了自由度v=20时t的界值，符号为tα，v。表中P(1) 为

t界值表(摘录)

v	P(1)： 0.25	0.10	0.05	0.025	0.01	0.005
v	P(2)： 0.50	0.20	0.10	0.05	0.02	0.01
20	0.687	1.325	1.725	2.086	2.528	2.845

单侧检验的概率，P(2)为双侧检验的概率。如单侧检验t_0.05，20＝1.725，它的意思是当v=20时，按统计量t的分布规律，理论上有5%的|t|值等于及大于1.725，或者说抽得统计量|t|等于及大于1.725的概率为0.05;同理，双侧t_0.05，20＝2.086，意思是说，当v=20时，抽得统计量|t|等于及大于2.086的概率为0.05。显然，双侧检验时，若算得统计量观察值|t|>2.086，则P<0.05;若|t|<2.086，则P>0.05，余类推。因而P值易由表直接查出。如双侧检验，v=20时，算得统计量观察值t=2.425，在界值2.086与2.528之间，则0.05>P>0.02;若t=2.086，则P=0.05; 若t=0.535，则P>0.5，余类推。由表及图1可见，自由度相同时，双侧t2α等于单侧tα，因为t分布是中心为0的对称分布。

(5) 作出推断结论：当P≤α时，结论为按所取检验水准拒绝H0，接受H1;当P>α时，结论为按所取检验水准不拒绝H0，或者说接受H0。如H0为μ1 =μ2，H1为μ₁≠μ2，拒绝H₀，可认为两总体均数有差别;不拒绝H₀，则尚不能认为两总体均数有差别，必要时可继续研究。这样作出结论的理由是：在H0成立的条件下，出现等于及大于统计量观察值(常取绝对值)的概率很小，P≤α，即现有样本信息不支持H₀，因而拒绝它;相反，如P>α，即现有样本信息支持H0，就没有理由拒绝它，有时只好接受它。须知：拒绝H0，不能认为H0肯定不成立，因为在H0成立的条件下，出现现有样本的概率虽小，但仍有可能出现，只是可能性很小而已;同理，不拒绝H0，也不能认为H0肯定成立。因为假设检验时，通过样本观察，必须对被检验的假设作出明确的判断，只能从“拒绝”或“不拒绝”中选择一个较为合理的决定。由此可见，统计推断的结论是具有概率性质的，不管是拒绝H0或不拒绝H0，都有可能发生错误，即第一类错误或第二类错误，但可以指出发生错误的概率有多大。

进行假设检验时应注意： ①资料来源必须遵循严密的随机抽样设计。②选用检验方法应符合其适用条件。③结论中拒绝H₀，接受H₁，习惯上亦称“显著”，不应误解为相差很大，或在医学上有显著的实用价值;反之，不拒绝H₀，习惯亦称“不显著”，不应误解为相差不大，或肯定无差别。例如两样本均数作比较时，拒绝H₀：μ₁＝μ2，接受H₁：μ₁≠μ2，不应误解为μ₁与μ₂的差别很大;不拒绝H0，不应误解为μ1与μ2相差不大或一定相等。习惯上将H0称为无效假设。为不致误解，有的统计学家主张不用“显著”、“无效”等词。④结论不能绝对化。因为检验水准是根据分析要求确定的，实际工作中，对同一问题要求α的大小往往有一定的灵活性，有时按α=0.05水准拒绝H₀，而按α=0.01水准有可能不拒绝H₀;再者，取同一检验水准，就现有样本不拒绝H₀，但增加样本含量，由于减少抽样误差，有可能拒绝H0。因此，P接近α时，下结论要慎重。此外，拒绝H0可产生第一类错误，不拒绝H0可产生第二类错误。⑤报告结论时，应列出统计量的观察值，注明采用的是单侧检验或双侧检验及检验水准，并写出P值的确切范围，如0.05>P>0.02，以便读者按自选的检验水准作出结论。

第一类错误和第二类错误 由假设检验作出的推断结论可能发生两种错误： ①拒绝了实际上是成立的H₀，这叫第一类错误或Ⅰ型错误。如图2，设H0： μ=0，H1：

图2 第一类错误与第二类错误示意(以单侧t检验为例)

μ>0。若μ确实为0，则H0。实际上是成立的，但由于抽样的偶然性，得到了较大的t值，因 |t|≥tα，P≤α，按所取检验水准α拒绝H₀，接受H₁，结论为μ>0，此推断当然是错误的。②不拒绝实际上是不成立的H0，这叫第二类错误或Ⅱ型错误。如图2，设H0： μ=0，H1： μ>0。若μ确实大于0，则H 0实际上是不成立的，但由于抽样的偶然性，得到了较小的t值，因 |t|<tα，P>α，按所取检验水准α接受H0，而未拒绝μ=0的错误假设，此推断当然也是错误的。

第一类错误的概率用α表示，假设检验时，根据分析者的要求确定其大小，如确定α=0.05，即第一类错误的概率为0.05，理论上100次抽样中发生这样的错误有5次;第二类错误的概率用β表示，它只有与特定的H₁结合起来才有意义，但β值的大小很难确切估计，仅知样本含量确定时，α愈小，β愈大;反之α愈大，β愈小。如图2，移动界值tα，此理易明。图2中的1-β称为检验效能或把握度，即两总体确有差别，按α水准能发现它有相差的能力。例如1-β=0.90，若两总体确有差别，则理论上在100次抽样中，有90次能得出有差别的结论。总结如下：

客观实际	拒绝H0	不拒绝H0
H0成立 H0不成立	第一类错误(α) 推断正确(1-β)	推断正确(1-α) 第二类错误(β)

α和β可以根据分析要求适当控制。要同时减少α及β，唯一的方法是增加样本含量;当样本含量确定后，虽然不能同时减少α和β，但可以通过确定α值来控制β。若要求重点在减少α，一般取α=0.01;若重点在减少β，一般取α=0.05，因为β虽属未知，但估计比取α=0.01时小些。当然α亦可取其他水准，须视具体问题的容许大小而定，不宜千篇一律。

复制全文下载保存发到邮箱

发表评价

词条信息

浏览次数:20191 次
发布时间: 2013-01-06
更新时间: 2013-01-06

参与评价：

推荐本词条
推荐量：0

词条内容仅供参考，如果您需要解决具体问题（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

点击关闭

热门标签