抽样方法与抽样误差-公卫百科-公共卫生科学数据中心

抽样方法与抽样误差

摘要: 抽样必须遵循随机化的原则，才能获得对总体有较好代表性的样本，并通过样本信息推断总体。随机抽样的方法有多种，常用的有单纯随机抽样、系统抽样、分层抽样、整群抽样、阶段抽样及时序抽样等，可根据研究设计的要求及人力、物力等实际可能加以选择。抽样必然有抽样误差，抽样误差的大小用标准误来衡量。

抽样必须遵循随机化的原则，才能获得对总体有较好代表性的样本，并通过样本信息推断总体。随机抽样的方法有多种，常用的有单纯随机抽样、系统抽样、分层抽样、整群抽样、阶段抽样及时序抽样等，可根据研究设计的要求及人力、物力等实际可能加以选择。抽样必然有抽样误差，抽样误差的大小用标准误来衡量。

单纯随机抽样 是最基本的抽样方法，也是其他抽样方法的基础。即先将被研究的各观察单位编号，再用随机数字表或抽签、摸球、电子计算机抽取等进行抽样。多用于实验动物的分配、病历的抽样等，还可结合其他抽样方法运用。

系统抽样 又称间隔抽样、机械抽样。将总体中的观察单位按某一特征的顺序编号，先随机抽取第一个观察单位，再依次按一定间隔取其余的观察单位。例如流行病学调查，要从1000户中抽取10%作样本，可先在门牌号1～10号之间随机抽取一户，譬如5号住户，其后每间隔10号抽取一户，即抽取5、15、25、35、…、995号等户，共100户。本法常用于调查研究，优点是简便易行，样本的观察单位在总体中分布均匀，一般情况下，比单纯随机抽样法的抽样误差小。但必须注意据以编号的特征是否有一定周期性，如某街道门牌，双号朝南，单号朝北，如果抽样间隔与周期有关，又总抽到单号，那么对某些指标可能出现较大的偏性。

分层抽样 先按某种特征将总体分为若干组别、类型或区域等(通称“层”)，再从每一层内进行随机抽样组成样本，最后计算样本指标(如样本均数)，作为总体指标(如总体均数)的估计值。此样本均数的抽样误差与总体中各层均数的大小无关。而各层内部的标准差愈小，样本均数的抽样误差亦愈小。所以，在分层时，应尽量使每一层内观察值的变异度小些。如在一个较大地区调查儿童身体发育的某项指标，可划分平原、山区、沿海等几个层，再按各层比例随机抽样。这样就可使每层中观察值的变异度小些，样本的代表性加强，各层间还可作比较分析。

整群抽样 以整群为抽样单位，而每一整群包括若干观察单位，对所取群中的观察单位全部调查。如拟了解某小学儿童视力情况，可随机抽取部分班(群)的全部儿童作调查。实际工作中，常以地区分群，故称为地区抽样法。本法易于组织，适用于群间差异较小的对象，差异过大将失去代表性。

阶段抽样 亦称多阶段抽样。在实际工作中多使用二阶段抽样。如调查某市小学生视力情况，第一阶段随机抽取该市几个学校，第二阶段再从抽中学校各随机抽取部分学生作调查。又如，研究大气污染，可使用多阶段抽样，第一阶段抽城市，第二阶段抽市区，第三阶段抽测试点，第四阶段抽取样品。此法应注意各阶段的连续性。各阶段抽样方法多用单纯随机抽样法，亦可几种抽样法结合使用。

时序抽样 为了掌握总体在不同时间的变化，若反复观察同一样本(同一批观察单位)，则易影响其对总体的代表性。因此在一定时期对时序总体进行连续抽样，可使样本不断得到更换。更换样本的方式有： ①每次全部更新样本的观察单位;②每次部分更新样本的观察单位;③后次样本仅包括前次样本的一定比例。长期随访观察中常用此法。

抽样误差 从同一总体中随机抽取含量相等的若干样本，算得的样本指标往往不一定相等。例如，分五批观察某药对慢性气管炎的疗效，样本含量各为30例，尽管各样本的条件力求一致，其有效率也不会完全一样。这种因抽样产生的样本指标(即统计量)与总体指标(即参数)的差异称为抽样误差。由于观察单位间存在个体差异，样本又未包含总体的全部信息，因而抽样误差是无法避免的。显然抽样误差愈小，样本对总体的代表性愈大。若用不同的抽样方法从同一总体中抽取含量相等的样本，抽样误差亦各异。一般来说，各种方法的抽样误差由大到小依次为：整群抽样、单纯随机抽样、系统抽样、分层抽样。若用同一抽样方法，则抽样误差的大小主要取决于观察单位间变异程度的大小和样本含量的多少。变异程度越小，样本含量越多，抽样误差越小;反之，变异程度越大，样本含量越少，抽样误差越大。

要评价统计量的抽样误差，需先确定其抽样分布。若从某一总体随机抽取很多个样本，含量各为n，分别算得很多样本均数()，其分布即的抽样分布。实际上，抽样分布是一种概括上述实践的理论分布，而不是通过具体地抽样求得的。不同统计量各有其特定的抽样分布规律，如样本含量足够大时(即使总体不呈正态分布)，样本均数的分布近似正态分布，样本率的分布一般为二项分布等。根据抽样分布可导出该统计量的均数和方差(仅少数分布不存在均数与方差)。此方差的平方根即该统计量的标准误，如样本均数的标准误、样本率的标准误、样本回归系数的标准误等，分别用符号S、sp、 s_b等表示，下标即标明有关的统计量。

标准误：是表示统计量的抽样误差大小的指标，常简记为SE。不同的统计量其标准误的计算方法不同，如样本均数的标准误s按式(1)计算，