第四节变量间的相关关系、统计案例
eq\a\vs4\al(对应学生用书,P165)
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)回归方程为y=bx+a,其中b=eq\f(\i\su(i=1,n,x)iyi-n\x\to(x)\x\to(y),\i\su(i=1,n,x)\o\al(2,i)-n\x\to(x)2),a=eq\x\to(y)-beq\x\to(x).
(3)通过求eq\a\vs4\al(Q=\i\su(i=1,n,)?yi-bxi-a?2)的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
χ2=eq\f(n?ad-bc?2,?a+b??a+c??b+d??c+d?)(其中n=a+b+c+d为样本容量).
1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(eq\x\to(x),eq\x\to(y))点,可能所有的样本数据点都不在直线上.
3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).
[试一试]
1.(2013·石家庄调研)下列结论正确的是()
①函数关系是一种确定性关系;
②相关关系是一种非确定性关系;
③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;
④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④ D.①②③④
解析:选C由回归分析的方法及概念判断.
2.已知x,y之间的数据如表所示,则回归直线过点()
x
1
2
3
4
5
y
1.2
1.8
2.5
3.2
3.8
A.(0,0) B.(2,1.8)
C.(3,2.5) D.(4,3.2)
解析:选C回归直线恒过定点(eq\x\to(x),eq\x\to(y)),故eq\x\to(x)=3,eq\x\to(y)=2.5.
1.求回归直线方程的步骤
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系;
(2)计算出eq\x\to(x),eq\x\to(y),eq\i\su(i=1,n,x)eq\o\al(2,i),eq\i\su(i=1,n,x)iyi的值;
(3)计算回归系数a,b;
(4)写出回归直线方程y=bx+a.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=eq\f(n?ad-bc?2,?a+b??a+d??a+c??b+d?)计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作统计判断.
[练一练]
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误概率不超过0.01的前提下认为这个结论是成立的,则下列说法中正确的是()
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
解析:选D统计的结果只是说明事件发生可能性的大小,具体到一个个体不一定发生.
2.在2012伦敦奥运会期间,某网站针对性别是否与看奥运会直播有关进行了一项问卷调查,得出如下表格:
性别
是否看奥运会直播
男
女
看奥运会直播
6000
2000
不看奥运会直播
2000
2000
则χ2=()
A.700 B.750
C.80