第七章直线回归与相关分析;一直线回归;例如:某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)。估计尿肌酐含量(Y)对其年龄(X)的回归方程。;从散点图可以看出:
①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;
②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);;
;特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控制,一般只能内插,不要轻易外延。;二直线相关;(一)、决定系数和相关系数
x对y的决定系数(coefficientofdetermination),记为r2,
决定系数的大小表示了回归方程估测可靠程度的高低,或者说表示了回归直线拟合度的高低。显然有0≤r2≤1。;若求r2的平方根,并赋予相应的符号,这样求出的平方根既可表示y与x的直线相关的程度,也可表示直线相关的性质。统计学上把这样计算所得的统计量称为x与y的相关系数(coefficientofcorrelation),记为r。;(二)、相关系数的计算
【例】计算10只绵羊的胸围(cm)和体重(kg)的相关系数。
表7.110只绵羊胸围和体重资料
计算出胸围与体重的相关系数为0.8475。;上述根据实际观测值计算得来的相关系数r是样本相关系数,它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数r是否来自ρ≠0的总体,还须对样本相关系数r进行显著性检验。此时无效假设、备择假设为HO:ρ=0,HA:ρ≠0。与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。;(三)、相关系数的显著性检验
统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表??。所以可以直接采用查表法对相关系数r进行显著性检验。
先根据自由度n-2查临界r值(附表8),得,。若|r|<,P>0.05,则相关系数r不显著,在r的右上方标记“ns”;若≤|r|<,0.01<P≤0.05,则相关系数r显著,在r的右上方标记“*”;若|r|≥,P≤0.01,则相关系数r极显著,在r的右上方标记“**”。;对于【例】,因为df=n-2=10-2=8,
查附表8得:=0.632,=0.765,而r=0.8475>,P<0.01,表明绵羊胸围与体重的相关系数极显著。
;(四)、相关系数与回归系数的关系
直线相关分析与回归分析的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量和依变量,侧重于寻求它们之间的联系形式——直线回归方程;直线相关分析不区分自变量和依变量,侧重于揭示它们之间的联系程度和性质——计算出相关系数。两种分析所进行的显著性检验都是解决y与x间是否存在直线关系。因而二者的检验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。;由于利用查表法对相关系数进行检验十分简便,因此在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算出相关系数r并对其进行显著性检验,若检验结果r不显著,则用不着建立直线回归方程;若r显著,再计算回归系数b、回归截距a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可利用它来进行预测和控制。;(五)、应用直线回归与相关的注意事项
直线回归分析与相关分析在生物科学研究领域中已得到了广泛的应用,但在实际工作中却很容易被误用或作出错误的解释。为了正确地应用直线回归分析和相关分析这一工具,必须注意以下几点:;1、