变异指标-公卫百科-公共卫生科学数据中心

变异指标

摘要: 变异指标又称离散指标，用以描述一组计量资料观察值之间参差不齐的程度，即离散度或变异度。设有以下二组数据，各包含五个观察值，均数都是10，但它们的离散度不同： A组较小，B组较大。

变异指标又称离散指标，用以描述一组计量资料观察值之间参差不齐的程度，即离散度或变异度。设有以下二组数据，各包含五个观察值，均数都是10，但它们的离散度不同： A组较小，B组较大。

A：	8	9	10	11	12
B：	3	7	10	13	17

可见平均数只反映平均水平，还需用变异指标反映离散度，两者结合起来才能全面说明一组计量资料的特征。变异指标包括标准差、方差、变异系数、极差、百分位数间距和均差等。其中以标准差最常用，其次是方差和变异系数。标准差又称根均方差。总体标准差σ是总体中各观察值X与总体均数μ之差平方后相加，即∑(X-μ)²(称离均差平方和)，用总体例数N平均后的平方根。计算公式为

从式中可见，当N固定后，若各观察值离均数近，∑(X-μ)²就小，σ亦小，表示观察值参差小;若各观察值离均数远，∑(X-μ)2就大，σ亦大，表示参差大。标准差的单位与平均数的相同。由于总体均数不易得到，实际工作中常用样本均数X作为总体均数μ的估计值;用样本标准差s作为总体标准差σ的估计值，则

式中n为样本含量，n-1为自由度v。由于用代替Μ，可以证明∑(X-)²比∑(X-Μ)²小，若用

计算标准差将偏小，为了克服此缺点，W.S.Gossett于1908年建议用n-1来代替分母中的n。当n很大时，n-1与n相差甚微，亦可用n作分母。

标准差可用于： ①表示观察值的离散度; ②结合均数描述正态分布特征;③计算标准误等。

计算标准差的方法有直接法、加权法和简捷法。

(1) 直接法：将观察值之和的平方(∑X)2，观察值平方之和∑X²与n直接代入式(3)即得

用式(3) 计算的优点是不必先求出每个观察值与均数之差。由于均数常带小数，所以求差后再平方是很麻烦的。式(3)是由式(2)推导得来，所以同一资料用两式计算的结果相同。

(2) 加权法：适用于有较多相同观察值的资料。加权就是将相同观察值的频数乘其观察值及观察值的平方，以代替逐个相加及逐个平方。计算公式为

式中f为各相同观察值的频数，其他同上。可见式(4)即式(3)的加权形式。

(3)简捷法：适用于观察值个数较多并编成频数表的资料。原理与计算步骤： ①在频数表中，以各组中值(本组下限与相邻较大组的下限之平均)代表本组各观察值，如表1第(3)栏。②先取一假定均数X0(见条目 “平均数”均数计算的简捷法)，然后将组中值X按式(5)变换为缩简值x，如表1第(4)栏，

式(5)中i为组距。③求各fx与fx2值，如表1第(5)、(6)栏，分别加总得∑fx与∑fx²。④按式(6)求s

例1 某市20个男婴的出生体重(g)如下，求其标准差。

2770
2272

2915
3503

2795
3418

2995
3921

2860
2669

2970
4218

3087
3707

3126
2310

3125
2573

4654
3881

例数不多，宜用直接法，按式(3)：

20名男婴的体重标准差为629.1g。

例2 某地1301名大骨节病妇女的初潮年龄如下，求其标准差。

初潮年龄(岁)：	11	12	13	14	15	16	17	18	19	合计
例数：	19	45	133	206	284	280	203	89	42	1301

相同年龄者很多，宜用加权法，按式(4)：

该地大骨节病妇女初潮年龄的标准差为1.7岁。

例3 按表1第(1)、(2)栏资料，求其标准差。

表1 130例正常成年男子红细胞数用简捷法计算标准差

例数较多，已编成频数表，宜用简捷法，按式(6)：

130例正常成年男子红细胞数的标准差为40.9万/mm³。

方差即标准差的平方，符号为σ²或s²。计算公式为

由于总体方差不易得到，实际工作中常用样本方差作为总体方差的估计值。

变异系数 又称离散系数，即标准差与均数之比用百分数表示，符号为CV，计算公式为

变异系数是相对比，没有单位。因此它既可消除原资料平均水平不同的影响，也可消除原测量单位不同的影响，从而反映变异度的大小。常用于： ①比较均数相差悬殊的几组资料的变异度。如人体发育期某些指标的均数与标准差往往随着年龄的增大而增大，似乎年龄大，指标的变异亦大，但若用变异系数分析，就可以看出青春发育期比其他年龄组的变异度大。②比较度量衡单位不同的几组资料的变异度，如例4。

例4 试比较表2中两种血象指标的变异度。能否说红细胞数的变异比血红蛋白的大。

表2 某地健康妇女255人的红细胞数和血红蛋白

血象	均数	标准差
红细胞数 (万/mm3)	417.8	29.1
血红蛋白 (g/dl)	11.76	1.02

红细胞数与血红蛋白的单位不同，因此不能按标准差的大小直接作出结论。应计算变异系数，按式(9)得

比较两变异系数，可见不能说红细胞数的变异比血红蛋白的大，而是血红蛋白的变异较大。

极差亦称全距，即一组计量资料中最大最小两个极端数据之差，符号为Ro单位与原观察值同。极差是最简单的一种变异指标，应用颇广，如用于传染病和食物中毒的最短、最长潜伏期等。以极差反映变异度，较为粗略，因为： ①除了最大值和最小值外，不能反映在此范围内的其他数据之离散度。②样本含量越大，极差可能越大，故样本含量悬殊时不宜比较其极差。③即使样本含量不变，极差的抽样误差亦较大。

在正态分布资料，极差与标准差之间有比例关系，其比值随样本含量n而改变(参见条目“极差分析”)。

例5 求例1资料的极差。

例1中最小值为2272，最大值为4654，则

R=4654-2272=2382(g)。

20名男婴体重的极差为2382g。

百分位数间距 同一资料中某两个百分位数之差称百分位数间距。单位与原观察值同(参见条目“百分位数”)。百分位数间距的性质类似极差，仅间距比极差小，故稳定性相对好些。

百分位数间距中，四分位数间距较多用，它是上四分位数QU(即第75百分位数)与下四分位数QL(即第25百分位数)之差，包括了全部变量值(共n例)中居于中间水平的一半，见下图。