第3课时一元线性回归模型及其应用
[考试要求]1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
考点一成对数据的相关性
1.变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关或曲线相关.
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数r的计算式
r=∑
=∑n
(3)样本相关系数r的性质
①样本相关系数r的取值范围为[-1,1];
②当r0时,成对样本数据正相关;
③当r0时,成对样本数据负相关;
④当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
提醒:当两个变量的样本相关系数|r|=1时,两个变量呈函数关系.
[典例1](1)(2024·天津卷)下列图中,线性相关系数最大的是()
AB
CD
(2)(2022·全国乙卷节选)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得∑i=110xi2=0.038,∑i=1
①估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
②求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
附:样本相关系数r=∑i=1n
(1)A[观察题干图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,|r|最大.故选A.]
(2)[解]①样本中10棵这种树木的根部横截面积的平均值x=0.610=0.06
样本中10棵这种树木的材积量的平均值y=3.910=0.39
据此可估计该林区这种树木平均一棵的根部横截面积为0.06m2,平均一棵的材积量为0.39m3.
②r=∑
=∑
=0.2474-10×0.06×0.39
=0.01340.0001896≈0.01340.01377≈
反思领悟判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:r>0时,正相关;r<0时,负相关.
(3)经验回归方程y=bx+a中:b0时,正相关;b0
巩固迁移1(1)(2025·凉山州模拟)调查某校高三学生的身高x和体重y得到如图所示的散点图,其中身高x和体重y的样本相关系数r=0.8255,则下列说法正确的是()
A.学生身高和体重没有相关性
B.学生身高和体重正相关
C.学生身高和体重负相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.8255
(2)(2024·福建一模)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-15x+1上,则这组样本数据的样本相关系数为(
A.-1 B.1
C.-15 D.
(1)B(2)A[(1)由散点图可知,散点的分布集中在一条直线附近,所以学生身高和体重具有相关性,A不正确;
又身高x和体重y的样本相关系数为r=0.8255,样本相关系数r>0,
所以学生身高和体重呈正相关,B正确,C不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的样本相关系数不一定是0.8255,D不正确.故选B.
(2)∵这组样本数据的所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-1