变异指标又称离散指标,用以描述一组计量资料观察值之间参差不齐的程度,即离散度或变异度。设有以下二组数据,各包含五个观察值,均数都是10,但它们的离散度不同: A组较小,B组较大。
A: | 8 | 9 | 10 | 11 | 12 |
B: | 3 | 7 | 10 | 13 | 17 |
可见平均数只反映平均水平,还需用变异指标反映离散度,两者结合起来才能全面说明一组计量资料的特征。变异指标包括标准差、方差、变异系数、极差、百分位数间距和均差等。其中以标准差最常用,其次是方差和变异系数。标准差 又称根均方差。总体标准差σ是总体中各观察值X与总体均数μ之差平方后相加,即∑(X-μ)2(称离均差平方和),用总体例数N平均后的平方根。计算公式为
从式中可见,当N固定后,若各观察值离均数近,∑(X-μ)2就小,σ亦小,表示观察值参差小;若各观察值离均数远,∑(X-μ)2就大,σ亦大,表示参差大。标准差的单位与平均数的相同。由于总体均数不易得到,实际工作中常用样本均数X作为总体均数μ的估计值;用样本标准差s作为总体标准差σ的估计值,则
式中n为样本含量,n-1为自由度v。 由于用代替Μ,可以证明∑(X-)2比∑(X-Μ)2小,若用
计算标准差将偏小,为了克服此缺点,W.S.Gossett于1908年建议用n-1来代替分母中的n。当n很大时,n-1与n相差甚微,亦可用n作分母。
标准差可用于: ①表示观察值的离散度; ②结合均数描述正态分布特征;③计算标准误等。
计算标准差的方法有直接法、加权法和简捷法。
(1) 直接法: 将观察值之和的平方(∑X)2,观察值平方之和∑X2与n直接代入式(3)即得
用式(3) 计算的优点是不必先求出每个观察值与均数之差。由于均数常带小数,所以求差后再平方是很麻烦的。式(3)是由式(2)推导得来,所以同一资料用两式计算的结果相同。
(2) 加权法: 适用于有较多相同观察值的资料。加权就是将相同观察值的频数乘其观察值及观察值的平方,以代替逐个相加及逐个平方。计算公式为
式中f为各相同观察值的频数,其他同上。可见式(4)即式(3)的加权形式。
(3)简捷法: 适用于观察值个数较多并编成频数表的资料。原理与计算步骤: ①在频数表中,以各组中值(本组下限与相邻较大组的下限之平均)代表本组各观察值,如表1第(3)栏。②先取一假定均数X0(见条目 “平均数”均数计算的简捷法),然后将组中值X按式(5)变换为缩简值x,如表1第(4)栏,
式(5)中i为组距。③求各fx与fx2值,如表1第(5)、(6)栏,分别加总得∑fx与∑fx2。④按式(6)求s
例1 某市20个男婴的出生体重(g)如下,求其标准差。
2770 2272 | 2915 3503 | 2795 3418 | 2995 3921 | 2860 2669 | 2970 4218 | 3087 3707 | 3126 2310 | 3125 2573 | 4654 3881 |
例数不多,宜用直接法,按式(3):
20名男婴的体重标准差为629.1g。
例2 某地1301名大骨节病妇女的初潮年龄如下,求其标准差。
初潮年龄(岁): | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 合计 |
例 数: | 19 | 45 | 133 | 206 | 284 | 280 | 203 | 89 | 42 | 1301 |
相同年龄者很多,宜用加权法,按式(4):
该地大骨节病妇女初潮年龄的标准差为1.7岁。
例3 按表1第(1)、(2)栏资料,求其标准差。
表1 130例正常成年男子红细胞数用简捷法计算标准差
例数较多,已编成频数表,宜用简捷法,按式(6):
130例正常成年男子红细胞数的标准差为40.9万/mm3。
方差 即标准差的平方,符号为σ2或s2。计算公式为
由于总体方差不易得到,实际工作中常用样本方差作为总体方差的估计值。
变异系数 又称离散系数,即标准差与均数之比用百分数表示,符号为CV,计算公式为
变异系数是相对比,没有单位。因此它既可消除原资料平均水平不同的影响,也可消除原测量单位不同的影响,从而反映变异度的大小。常用于: ①比较均数相差悬殊的几组资料的变异度。如人体发育期某些指标的均数与标准差往往随着年龄的增大而增大,似乎年龄大,指标的变异亦大,但若用变异系数分析,就可以看出青春发育期比其他年龄组的变异度大。②比较度量衡单位不同的几组资料的变异度,如例4。
例4 试比较表2中两种血象指标的变异度。能否说红细胞数的变异比血红蛋白的大。
表2 某地健康妇女255人的红细胞数和血红蛋白
血 象 | 均 数 | 标准差 |
红细胞数 (万/mm3) | 417.8 | 29.1 |
血红蛋白 (g/dl) | 11.76 | 1.02 |
红细胞数与血红蛋白的单位不同,因此不能按标准差的大小直接作出结论。应计算变异系数,按式(9)得
比较两变异系数,可见不能说红细胞数的变异比血红蛋白的大,而是血红蛋白的变异较大。
极差 亦称全距,即一组计量资料中最大最小两个极端数据之差,符号为Ro单位与原观察值同。极差是最简单的一种变异指标,应用颇广,如用于传染病和食物中毒的最短、最长潜伏期等。以极差反映变异度,较为粗略,因为: ①除了最大值和最小值外,不能反映在此范围内的其他数据之离散度。②样本含量越大,极差可能越大,故样本含量悬殊时不宜比较其极差。③即使样本含量不变,极差的抽样误差亦较大。
在正态分布资料,极差与标准差之间有比例关系,其比值随样本含量n而改变(参见条目“极差分析”)。
例5 求例1资料的极差。
例1中最小值为2272,最大值为4654,则
R=4654-2272=2382(g)。
20名男婴体重的极差为2382g。
百分位数间距 同一资料中某两个百分位数之差称百分位数间距。单位与原观察值同(参见条目“百分位数”)。百分位数间距的性质类似极差,仅间距比极差小,故稳定性相对好些。
百分位数间距中,四分位数间距较多用,它是上四分位数QU(即第75百分位数)与下四分位数QL(即第25百分位数)之差,包括了全部变量值(共n例)中居于中间水平的一半,见下图。
四分位数间距示意
均差 因各观察值与其均数之差的代数和等于0,即∑(X-)=0, 于是取各观察值与均数之差的绝对值加总后平均,即为均差。均差作为变异指标已很少使用。计算公式为
![]() |