公卫百科首页>> 公卫百科>> 医学统计 >>平均数

平均数
 
摘要: 平均数是分析计量资料的基本指标,表示一组性质相同的观察值的平均水平。平均数包括算术均数、几何均数、中位数、众数及调和均数等。前三种较常用,尤其是第一种。

平均数是分析计量资料的基本指标,表示一组性质相同的观察值的平均水平。平均数包括算术均数、几何均数、中位数、众数及调和均数等。前三种较常用,尤其是第一种。

算术均数 简称均数,符号为X,是一组观察值的平均。均数最适用于呈正态分布的资料,其他分布资料亦可用。均数只反映数据集中的一面,对服从正态分布的资料,把均数与标准差结合起来可全面反映其分布的特征。均数有三种算法: 直接法、加权法和简捷法。

1. 直接法: 当观察值的个数不多时,可直接计算。公式为


式中∑为求和的符号,X为观察值,n为观察值的个数,一般即样本含量。

2. 加权法: 当资料有较多相同的观察值时,可用相同观察值的个数即频数f乘该观察值,以代替逐个相加。公式为


式中∑fX表示k个不同的观察值各以其频数f加权后的和: f1X1+f2X2+…+fkXk。如计算10,10,10,15,15五个观察值的均数,则


加权的涵义是指各个不同的观察值在计算均数时,由于频数不同,所起的作用也不同。频数多,权数大,作用也大;频数少,权数小,作用也小。如上面的5个观察值中,10有3个,权数为3,15有2个,权数为2。计算均数时,观察值10起3/5的作用,而观察值15只起2/5的作用。因此,均数不是10与15的平均——12.5,而是12,偏向于权数较大的10。权数相差越悬殊,这种偏向也越明显。

3. 简捷法: 适用于观察值较多并编成频数表的资料。其原理与计算步骤如下:

(1) 以各组中值代表本组段的各观察值。组中值是本组段下限与相邻较大组段下限之平均,如表1第一组段的组中值X=(370+390)/2=380,即第(3)栏数字。

(2) 将X按下式简化为缩简值x,


式中X0为假定均数,一般选频数较多而居中一组的组中值,如表1选X0=480;i为组距,如表1,i=20;第一组段的x=(380-480)/20=-5,余类推。假定均数所在组段x=0。通常若频数表的组距相等,则不必计算,可在组中值定为X0的组段写0,然后在0的上下,对组中值小于X0的各组段依次写-1,-2,…;对组中值大于X0的各组段依次写1,2,3,……,如表1第(4)栏。(3)求∑fx,即将各组段的频数f与x相乘,然后求和。

(4)按式(3)求均数,即对假定均数进行校正,


例1 某市20个男婴的出生体重(g)如下,求其平均体重。2770 2915 2795 2995 2860 2970 3087 3126 3125 46542272 3503 3418 3921 2669 4218 3707 2310 2573 3881例数不多,宜用直接法,按式(1)计算平均体重为


例2 1301名大骨节病妇女的初潮年龄如下,求其平均初潮年龄。


初潮年龄(岁)
例数

11 12 13 14 15 16 17 18 19 合计
19 45 133 206 284 280 203 89 42 1301



相同年龄者很多,宜用加权法,按式(2)计算平均初潮年龄为


例3 求表1第(1)、(2)栏资料红细胞数的均数。


表1 130例正常成年男子红细胞数用简捷法计算均数


表1中i=20,∑f =130,取X0=480,∑fx=-4,按式(3)得红细胞数的均数为


几何均数 符号为Go当一组观察值呈倍数关系,或近似倍数关系时,习惯上用倍数平均,以表示其平均水平,称几何均数。公式为


式中符号涵义同式(1)。设有4份血清的抗体效价为1:10,1:20,1:40,1:320,则


平均效价为1:40。

此类资料往往出现相同的观察值,如有f个X时,将f个X连乘,即Xf,则式(4)和式(5)可写成式 (6)和式(7):


式中f1为X1的频数,余仿此,直至fk和Xk

计算几何均数时应注意: ①观察值中不能有0,因为0不能与任何其他数值呈倍数关系; ②不能同时有正值和负值;③若全是负值,计算时可先把负号除去,得出结果后再加上负号; ④几何均数也可以用对数计算,即按式(5)或式(7)计算后,查反对数即得G。

例4 某地对69名麻疹易感儿童接种长春47株麻疹减毒活疫苗,接种后1个月测得其血清血凝抑制效价如下,求平均效价。


血清稀释度倒数X

4 8 16 32 64 128 256 512

合计

例数f
按式(7):

3 4 7 11 9 15 13 7

69



故平均效价为1:72.9。

中位数 符号为M。一组按大小顺序排列的观察值,位次居中的数值即中位数,见条目“百分位数”。用中位数表示平均水平,不受个别特小或特大观察值的影响,因此适用于: ①资料的分布呈明显偏态; ②分布的一端或两端无确定数值; ③资料的分布不清。中位数的算法有直接法和频数表法。

(1)直接法: 当例数n不多时,可将观察值按大小顺序排列直接求得Mo M的位次由下式计算:


由此可见,当n为奇数时,中位数为序列位次居中的那个观察值;当n为偶数时,中位数为序列位次居中的两观察值的平均。

(2)频数表法: 当例数较多时,先将观察值编制频数表,再按式(9)或式(10)计算式(9)中n为总例数,fM为n/2所在组段的频数,i为该组段的组距,L为其下限,∑fL为小于L各组段的累计频数。式(10)中U为n/2所在组段的上限,∑fU为大于U各组段的累计频数,其他同前。当按组段由小到大累计频数时宜用式(9),由大到小累计时宜用式(10),二式所得结果相同。。


例5 某病9人的潜伏期(天)如下,求其中位数。

2 3 3 3 4 5 6 9 16

用直接法。将观察值从小到大排列,由式(8)算得:


第5个观察值“4天”即该病潜伏期中位数。

例6 设例5增1例,其潜伏期为30天,求中位数。


表示中位数在第5个观察

值4和第6个观察值5之间,取其均数,即得


故潜伏期中位数为4.5天。

例7 145名食物中毒病人的潜伏期列于表2第(1)、(2)栏,求其中位数。


表2 粪链球菌食物中毒者的潜伏期


用频数表法。


第(3)栏上部是由小到大的累计频数,下部是由大到小的累计频数,可见n/2在“12~”组段内,于是得∑fL=63,∑fv=44,L=12,U=18,i=6,fM=38。

按式(9):


或按式(10):


潜伏期中位数为13.5小时。

众数 符号为M0。是一组资料中出现频数最多的那个观察值。在频数表上,频数最多的那个组段的组中值可作为众数的概约估计值。按上法求得的众数称观察众数。众数还可按式(11)~(14)中任一式计算:


式中L为M0所在组段(即频数最多的组段)的下限: U为上限,i为组距;f0为M0所在组段的频数,fL为小于L的相邻组段的频数,fU为大于U的相邻组段的频数。同一频数表资料用式(11)和式(12) 计算结果相同,用式(13)和式(14)计算的结果相同。

同一资料分组不同时,众数也可能不同。精确的众数尚可通过频数分布曲线的拟合求得。

例8 求表1资料的众数。

表1中最大频数是25,此组段的组中值480万/mm3即观察众数。尚可按式(11)~(14)计算:


所得众数接近于观察众数480万/mm3

均数、中位数与众数的关系: 在正态分布或其他对称分布中,X、M与M0密合; 在接近正态或对称的分布中,此三者十分接近;在轻度偏态分布中,它们有如下关系。


由式(15)可通过和M求M0。从式(15)还可导出式(16):


表示M在与M0之间,而且M与M0相距为M与相距之2倍。

调和均数 符号为H。调和均数是观察值X倒数之均数的倒数。常用于完成的工作量相等而完成时间不同,求平均速度。在某些假设检验中用于样本含量不同时求平均样本含量。计算公式为


式中符号意义同前。


发表评价

词条信息

  • 浏览次数:11352 次
  • 发布时间: 2012-12-17
  • 更新时间: 2012-12-17

参与评价:

  • 词条内容仅供参考,如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
热门标签

中国疾病预防控制中心 版权所有 京ICP备11024750
中国疾控中心信息中心 内容管理与技术支持 建议使用1024*768 分辨率,IE8.0以上
地址:北京市昌平区昌百路155号 邮编:102206 热线电话:13911841040