平均数是分析计量资料的基本指标,表示一组性质相同的观察值的平均水平。平均数包括算术均数、几何均数、中位数、众数及调和均数等。前三种较常用,尤其是第一种。
算术均数 简称均数,符号为X,是一组观察值的平均。均数最适用于呈正态分布的资料,其他分布资料亦可用。均数只反映数据集中的一面,对服从正态分布的资料,把均数与标准差结合起来可全面反映其分布的特征。均数有三种算法: 直接法、加权法和简捷法。
1. 直接法: 当观察值的个数不多时,可直接计算。公式为
式中∑为求和的符号,X为观察值,n为观察值的个数,一般即样本含量。
2. 加权法: 当资料有较多相同的观察值时,可用相同观察值的个数即频数f乘该观察值,以代替逐个相加。公式为
式中∑fX表示k个不同的观察值各以其频数f加权后的和: f1X1+f2X2+…+fkXk。如计算10,10,10,15,15五个观察值的均数,则
加权的涵义是指各个不同的观察值在计算均数时,由于频数不同,所起的作用也不同。频数多,权数大,作用也大;频数少,权数小,作用也小。如上面的5个观察值中,10有3个,权数为3,15有2个,权数为2。计算均数时,观察值10起3/5的作用,而观察值15只起2/5的作用。因此,均数不是10与15的平均——12.5,而是12,偏向于权数较大的10。权数相差越悬殊,这种偏向也越明显。
3. 简捷法: 适用于观察值较多并编成频数表的资料。其原理与计算步骤如下:
(1) 以各组中值代表本组段的各观察值。组中值是本组段下限与相邻较大组段下限之平均,如表1第一组段的组中值X=(370+390)/2=380,即第(3)栏数字。
(2) 将X按下式简化为缩简值x,
式中X0为假定均数,一般选频数较多而居中一组的组中值,如表1选X0=480;i为组距,如表1,i=20;第一组段的x=(380-480)/20=-5,余类推。假定均数所在组段x=0。通常若频数表的组距相等,则不必计算,可在组中值定为X0的组段写0,然后在0的上下,对组中值小于X0的各组段依次写-1,-2,…;对组中值大于X0的各组段依次写1,2,3,……,如表1第(4)栏。(3)求∑fx,即将各组段的频数f与x相乘,然后求和。
(4)按式(3)求均数,即对假定均数进行校正,
例1 某市20个男婴的出生体重(g)如下,求其平均体重。2770 2915 2795 2995 2860 2970 3087 3126 3125 46542272 3503 3418 3921 2669 4218 3707 2310 2573 3881例数不多,宜用直接法,按式(1)计算平均体重为
例2 1301名大骨节病妇女的初潮年龄如下,求其平均初潮年龄。
初潮年龄(岁) | 11 12 13 14 15 16 17 18 19 合计 |
相同年龄者很多,宜用加权法,按式(2)计算平均初潮年龄为
例3 求表1第(1)、(2)栏资料红细胞数的均数。
表1 130例正常成年男子红细胞数用简捷法计算均数
表1中i=20,∑f =130,取X0=480,∑fx=-4,按式(3)得红细胞数的均数为
几何均数 符号为Go当一组观察值呈倍数关系,或近似倍数关系时,习惯上用倍数平均,以表示其平均水平,称几何均数。公式为
式中符号涵义同式(1)。设有4份血清的抗体效价为1:10,1:20,1:40,1:320,则
平均效价为1:40。
此类资料往往出现相同的观察值,如有f个X时,将f个X连乘,即Xf,则式(4)和式(5)可写成式 (6)和式(7):
式中f1为X1的频数,余仿此,直至fk和Xk。
计算几何均数时应注意: ①观察值中不能有0,因为0不能与任何其他数值呈倍数关系; ②不能同时有正值和负值;③若全是负值,计算时可先把负号除去,得出结果后再加上负号; ④几何均数也可以用对数计算,即按式(5)或式(7)计算后,查反对数即得G。
例4 某地对69名麻疹易感儿童接种长春47株麻疹减毒活疫苗,接种后1个月测得其血清血凝抑制效价如下,求平均效价。
血清稀释度倒数X | 4 8 16 32 64 128 256 512 | 合计 |
例数f | 3 4 7 11 9 15 13 7 | 69 |
故平均效价为1:72.9。
中位数 符号为M。一组按大小顺序排列的观察值,位次居中的数值即中位数,见条目“百分位数”。用中位数表示平均水平,不受个别特小或特大观察值的影响,因此适用于: ①资料的分布呈明显偏态; ②分布的一端或两端无确定数值; ③资料的分布不清。中位数的算法有直接法和频数表法。
(1)直接法: 当例数n不多时,可将观察值按大小顺序排列直接求得Mo M的位次由下式计算:
由此可见,当n为奇数时,中位数为序列位次居中的那个观察值;当n为偶数时,中位数为序列位次居中的两观察值的平均。
(2)频数表法: 当例数较多时,先将观察值编制频数表,再按式(9)或式(10)计算式(9)中n为总例数,fM为n/2所在组段的频数,i为该组段的组距,L为其下限,∑fL为小于L各组段的累计频数。式(10)中U为n/2所在组段的上限,∑fU为大于U各组段的累计频数,其他同前。当按组段由小到大累计频数时宜用式(9),由大到小累计时宜用式(10),二式所得结果相同。。
例5 某病9人的潜伏期(天)如下,求其中位数。
2 3 3 3 4 5 6 9 16
用直接法。将观察值从小到大排列,由式(8)算得:
第5个观察值“4天”即该病潜伏期中位数。
例6 设例5增1例,其潜伏期为30天,求中位数。
表示中位数在第5个观察
值4和第6个观察值5之间,取其均数,即得
故潜伏期中位数为4.5天。
例7 145名食物中毒病人的潜伏期列于表2第(1)、(2)栏,求其中位数。
表2 粪链球菌食物中毒者的潜伏期
用频数表法。
第(3)栏上部是由小到大的累计频数,下部是由大到小的累计频数,可见n/2在“12~”组段内,于是得∑fL=63,∑fv=44,L=12,U=18,i=6,fM=38。
按式(9):
或按式(10):
潜伏期中位数为13.5小时。
众数 符号为M0。是一组资料中出现频数最多的那个观察值。在频数表上,频数最多的那个组段的组中值可作为众数的概约估计值。按上法求得的众数称观察众数。众数还可按式(11)~(14)中任一式计算:
式中L为M0所在组段(即频数最多的组段)的下限: U为上限,i为组距;f0为M0所在组段的频数,fL为小于L的相邻组段的频数,fU为大于U的相邻组段的频数。同一频数表资料用式(11)和式(12) 计算结果相同,用式(13)和式(14)计算的结果相同。
同一资料分组不同时,众数也可能不同。精确的众数尚可通过频数分布曲线的拟合求得。
例8 求表1资料的众数。
表1中最大频数是25,此组段的组中值480万/mm3即观察众数。尚可按式(11)~(14)计算:
所得众数接近于观察众数480万/mm3。
均数、中位数与众数的关系: 在正态分布或其他对称分布中,X、M与M0密合; 在接近正态或对称的分布中,此三者十分接近;在轻度偏态分布中,它们有如下关系。
由式(15)可通过和M求M0。从式(15)还可导出式(16):
表示M在与M0之间,而且M与M0相距为M与相距之2倍。
调和均数 符号为H。调和均数是观察值X倒数之均数的倒数。常用于完成的工作量相等而完成时间不同,求平均速度。在某些假设检验中用于样本含量不同时求平均样本含量。计算公式为
式中符号意义同前。
![]() |