当一个变量X由小到大,另一个变量Y亦相应地由小到大(或由大到小),两变量的散点图呈直线趋势,那么这两个变量间有直线关系。如图1中的散点呈直线趋势,说明健康儿童的发硒值和血硒值间有直线关系,发硒高,血硒也高,发硒低,血硒亦低。这种直线关系,或分析这种直线关系的理论和方法,统称直线相关。两变量间直线相关的性质和密切程度,用直线相关系数来描述。
直线相关系数 亦称积差相关系数或积矩相关系数,简称相关系数,创用于F. Y.Edgeworth (1892),符号为r。r的值在-1到+1之间,没有单位。相关性质与r值的关系见图2。当X由小到大,同时Y也相应地由小到大,则r值为正,称正相关;当X由小到大,同时Y由大到小,则r值为负,称负相关;若X、Y间呈完全确定的函数关系,各点都在直线上,则r=1或r=-1,称完全相关;若X由小到大,Y的大小无一定规律,这时r≐0,称零相关。由于影响因素众多,生物界各现象间很少完全相关,相关系数多在-1与1之间。当例数相等时,相关系数的绝对值愈接近1,相关愈密切;愈接近于0,相关愈不密切。
相关系数的计算步骤如下:
(1)列出一对对数据如表2第(1)、(2)栏,并绘散点图,若散点图呈直线趋势,分别求出X、Y的和 ΣX、∑Y,平方和ΣX2、∑Y2及积和ΣXY。
(2)按式(1)至式(3) 计算离均差平方和及离均差积
图1 某地10名儿童发硒和血硒含量的散点图
图2 相关系数示意
和,式中n为样本含量。
相关系数的假设检验 根据样本计算出来的相关系数r,是总体相关系数ρ的估计值。从ρ=0(无直线相关)的总体中抽出的样本,其r不一定为0。因此,得到r后必须检验r是否来自ρ=0的总体,以判定两变量间是否存在直线相关关系。常用t检验,其步骤如下:
①作检验假设H0为ρ=0。
② 求统计量t值。
式中分母为相关系数的标准误sr。
③查t界值表得P值,按所取检验水准作出推断结论。若不拒绝H0可认为无相关; 若拒绝H0则认为有相关。
为简化计算,统计工作者根据上述原理编制了相关系数界值表(表1)。当求得r值后,即可直接查表1得P值。
表1 相关系数r界值表
v | P(1):0.05 | 0.025 | 0.01 | 0.005 |
1 | 0.988 | 0.997 | 1.000 | 1.000 |
6 | 0.621 | 0.707 | 0.789 | 0.834 |
11 | 0.476 | 0.553 | 0.634 | 0.684 |
16 | 0.400 | 0.468 | 0.543 | 0.590 |
25 | 0.323 | 0.381 | 0.445 | 0.487 |
50 | 0.231 | 0.273 | 0.322 | 0.354 |
100 | 0.164 | 0.195 | 0.230 | 0.254 |
本表由式(5)与t界值表(详表)算得。
作直线相关分析时应注意以下几点:
(1) 积差相关系数只适用于双变量正态分布资料(见条目“双变量正态分布”),否则应通过变量变换(见条目“变量变换”)使之正态化,然后根据变换值计算相关系数,或计算等级相关系数(见“等级相关”)。
(2)不能只根据相关系数绝对值的大小来判断相关的密切程度。例如有两个样本相关系数: r1=0.601,v1=6;r2=0.401,v2=40。不能根据r1>r2就说r1比r2相关更密切。因为查表1,前一样本得P>0.05,后一样本P<0.01,若按同一检验水准0.05,则前者可认为无相关而后者有相关,可见正确推断有无相关必须经过假设检验。
(3) 相关可以是因果关系,也可以只是伴随关系。相关显著只说明两现象的数量间存在直线关系,但不能证明事物间有内在联系。当事物间的内在联系尚未被认识前,相关分析能从数量上给理论研究提供线索。
例 某地区10名健康儿童头发与全血中的硒含量(1000ppm)见表2第(1)、(2)栏,问发硒与血硒间有无直线相关?
H0: ρ=0,
H1: ρ≠0。
α=0.05。
根据表2初步计算结果,按式(1)~(4)计算相关系数:
表2 相关系数计算表
发硒X | 血硒Y | X2 | Y2 | XY |
74 | 13 | 5476 | 169 | 962 |
754 | 108 | 58212 | 1266 | 8464 |
按式(5)作相关系数的t检验:
查t界值表得P<0.01,按α=0.05水准拒绝H0,接受H1,可认为该地健康儿童发硒与血硒间有正相关。
或以r=0.8715,v=8直接查相关系数界值表,仍得P<0.01,结论同前。
![]() |