11.2成对数据的统计分析
考点1变量间的相关关系
1.(2024天津,3,5分,易)下列散点图中,样本相关性系数最大的是()
3
A
观察各选项可知,A图中散点分布比较集中,且大体接近一条直线,呈现明显的正相关,线性回归模型的拟合效果比较好,|r|相比于其他3图更接近1.故选A.
2.(2020课标Ⅱ理,18,12分)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=120xi=60,i=120yi=1200,i=120(xi-x)2=80,i=120
9000,i=120(xi-x)(yi-y)
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数i=1n(xi?x
解析(1)由已知得样本平均数y=120i=120
12000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
i=120(x
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
3.(2015课标Ⅰ,理19,文19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x
y
w
∑i=18(xi-
∑i=18(wi-
∑i=18(xi-x)(yi
∑i=18(wi-w)(yi
46.6
563
6.8
289.8
1.6
1469
108.8
表中
(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
(i)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为
β^=∑i=1n(ui?u
解析(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)
(2)令w=x,先建立y关于w的线性回归方程.由于
d^=∑i=1
c^=y-d^
所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(6
(3)(i)由(2)知,当x=49时,年销售量y的预报值
y^=100.6+6849
年利润z的预报值z^=576.6×0.2-49=66.32.(9分
(ii)根据(2)的结果知,年利润z的预报值
z^=0.2(100.6+68x)-x=-x+13.6x
所以当x=13.62=6.8,即x=46.24时,z^
故年宣传费为46.24千元时,年利润的预报值最大.(12分)
4.(2015重庆文,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程y^=b^t+
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
附:回归方程y^=b^t+a
b^=∑i=1nt
解析(1)列表计算如下:
i
ti
yi
t
tiyi
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
∑
15
36