8.2一元线性回归模型及其应用
【题型归纳目录】
题型一:求回归直线方程
题型二:利用回归直线方程对总体进行估计
题型三:线性回归分析
题型四:残差分析与相关指数的应用
题型五:非线性回归分析
【知识点梳理】
1、一元线性回归模型
我们称为关于的一元线性回归模型,其中称为因变量或响应变量,称为自变量或解释变量;和为模型的末知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
2、线性回归方程与最小二乘法
回归直线方程过样本点的中心,是回归直线方程最常用的一个特征
我们将称为关于的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做b,a的最小二乘估计(leastsquaresestimate),
其中
3、残差的概念
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4、刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用刻画回归效果
决定系数是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客立预报变量的能力.,越大,即拟合效果越好,越小,模型拟合效果越差.
【典型例题】
题型一:求回归直线方程
【典例1-1】(2024·高二·辽宁沈阳·期末)对两个具有线性相关关系的变量x和y进行统计时,得到一组数据,通过这组数据求得回归直线方程为,则m的值为(????)
A.3 B.5 C.5.2 D.6
【典例1-2】(2024·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是(????)
时间x(月)
1
2
3
4
5
销售量y(万件)
1
1.6
2.0
a
3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
【变式1-1】(2024·高二·江西·期末)根据3对数据,,绘制的散点图知,样本点呈直线趋势,且线性回归方程为,则(????)
A.11 B.10 C.9 D.8
【变式1-2】(2024·高三·黑龙江齐齐哈尔·期末)已知在特定的时期内某人在一个月内每天投入的体育锻炼时间(分钟)与一个月内减轻的体重(斤)的一组数据如表所示:
30
40
50
60
70
一个月内减轻的体重与每天投入的体育锻炼时间之间具有较强的线性相关关系,其线性回归直线方程是,据此模型估计当此人在一个月内每天投入的体育锻炼时间为90分钟时,该月内减轻的体重约为(????)
A.斤 B.斤 C.斤 D.斤
【变式1-3】(2024·陕西·一模)已知学生的数学和地理成绩具有线性相关关系,高三某次模考中,5名学生的数学和地理成绩如下表:
学生的编号i
1
2
3
4
5
数学成绩x
100
105
90
85
80
地理成绩y
75
■
68
64
62
现已知其线性回归方程为,则“■”代表该生的地理成绩为(????)
A.76 B.74.85 C.73 D.72.5
【方法技巧与总结】
,
题型二:利用回归直线方程对总体进行估计
【典例2-1】(2024·高三·四川成都·阶段练习)配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的时间.相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.已知图①是某次马拉松比赛中一位跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是本次马拉松比赛(全程约42千米)前5000名跑者成绩(单位:分钟)的频率分布直方图.
??????
(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)在本次比赛中,该跑者如果将心率控制在160(单位:次/分钟)左右跑完全程,估计他跑完全程花费的时间及他能获得的名次.
参考公式:中,,,其中,为样本平均值.
【典例2-2】(2024·高二·江西九江·期末)2023年9月23日—10月8日,亚运会在杭州举行,“碳中和”是本届亚运会一大亮点.为了打造碳中和亚运会,杭州亚运会上线了“亚运碳中和-减污降碳协同”数字化管理平台.该平台将