完成时间:月日天气:
作业09成对数据的统计分析(线性回归模型与独立性检验)
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程eq\o(y,\s\up6(^))=eq\o(b,\s\up6(^))x+eq\o(a,\s\up6(^))是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中eq\o(a,\s\up6(^)),eq\o(b,\s\up6(^))是待定参数.
eq\b\lc\{\rc\(\a\vs4\al\co1(\o(b,\s\up6(^))=\f(\o(∑,\s\up6(n),\s\do4(i=1))?xi-\x\to(x)??yi-\x\to(y)?,\o(∑,\s\up6(n),\s\do4(i=1))?xi-\x\to(x)?2)=\f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\x\to(x)\x\to(y),\o(∑,\s\up6(n),\s\do4(i=1))x\o\al(2,i)-n\x\to(x)2),,\o(a,\s\up6(^))=\x\to(y)-\o(b,\s\up6(^))\x\to(x).))
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(eq\x\to(x),eq\x\to(y))称为样本点的中心.
(3)相关系数
当r0时,表明两个变量正相关;
当r0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=eq\f(n?ad-bc?2,?a+b??c+d??a+c??b+d?),其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2≤2.706时,没有充分的证据判定变量A,B有关联;
当χ22.706时,有90%的把握判定变量A,B有关联;
当χ3.841时,有95%的把握判定变量A,B有关联;
当χ6.635时,有99%的把握判定变量A,B有关联.
一、单选题
1.根据与之间的一组数据求得两个变量之间的经验回归方程为,已知数据的平均值为1.2,则数据的平均值为(????)
A.2.6 B.2.3 C.1.8 D.1.5
2.已知具有线性相关的两个变量之间的一组数据如表:
-2
-1
1
2
3
24
36
40
48
56
且回归方程为,则当时,的预测值为(????)
A.59.5 B.60.5 C.61.5 D.62.5
3.某学校在一次调查“篮球迷”的活动中,获得了如下数据,以下结论正确的是(????)
男生
女生
篮球迷
30
15
非篮球迷
45
10
附:,
0.10
0.05
0.01
2.706
3.841
6.635
A.没有的把握认为是否是篮球迷与性别有关
B.有的把握认为是否是篮球迷与性别有关
C.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
D.在犯错误的概率不超过的前提下,可以认为是否是篮球迷与性别有关
4.给定两个随机变量和的5组数据如下表所示,利用最小二乘法得到关于的线性回归方程为,则表中值为(????)
1
2
3
4
5
2
4
7
8
A.3 B.4 C.5 D.6
5.假设有两个分类变量和的列联表如下:注:的观测