答案第=page11页,共=sectionpages22页
8.2一元线性回归模型及其应用
第八章成对数据的统计分析
8.2一元线性回归模型及其应用
8.2.1一元线性回归模型
练习
1.说明函数模型与回归模型的区别,并分别举出两个应用函数模型和回归模型的例子.
2.在一元线性回归模型(1)中,参数b的含义是什么?
3.将图8.2-1中的点按父亲身高的大小次序用折线连起来,所得到的图象是一个折线图,可以用这条折线表示儿子身高和父亲身高之间的关系吗?
8.2.2一元线性回归模型参数的最小二乘估计
练习
1.对一元线性回归模型参数a和b的估计中,有人认为:“估计方法不止一种,根据不同的样本观测数据到直线‘整体接近程度’的定义,可以得到参数a和b不同的估计,只要‘整体接近程度’定义合理即可.”你觉得这个说法对吗?
2.假如女儿身高y(单位:cm)关于父亲身高x(单位:cm)的经验回归方程为.已知父亲身高为175cm,请估计女儿的身高.
3.根据8.1.1节表8.1-1中的数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
4.计算表8.2-2中的所有残差之和,你能发现什么规律?
5.假设变量x与变量Y的n对观测数据为,,…,,两个变量满足一元线性回归模型.请写出参数b的最小二乘估计.
例经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.2-3),试根据这些数据建立树高关于胸径的经验回归方程.
表8.2-3
分析:因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标描出散点,进而得到散点图,再根据散点图判断树高与胸径是否线性相关.如果是,再利用公式(2)计算出,即可.
解:以胸径为横坐标、树高为纵坐标作散点图,得到图8.2-9.
图8.2-9
在图8.2-9中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为
,
相应的经验回归直线如图8.2-10所示.
图8.2-10
根据经验回归方程,由表8.2-3中胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表8.2-4所示.
表8.2-4
以胸径为横坐标,残差为纵坐标,作残差图,得到图8.2-11.
图8.2-11
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
练习
1.在回归分析中,分析残差能够帮助我们解决哪些问题?
2.1997~2006年中国的国内生产总值(GDP)的数据如下:
(1)作GDP和年份的散点图,根据该图猜想它们之间的关系可以用什么模型描述;
(2)建立年份为解释变量,GDP为响应变量的一元线性回归模型,并计算残差;
(3)根据你得到的一元线性回归模型,预测2017年的GDP,看看你的预测值与实际的GDP的误差是多少;
(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由
(5)随着时间的发展,又收集到2007~2016年的GDP数据如下:
建立年份(1997~2016)为解释变量,GDP为响应变量的经验回归方程,并预测2017年的GDP,与实际的GDP误差是多少?你能发现什么?
习题8.2
复习巩固
1.如果散点图中所有的散点都落在一条斜率为非0的直线上,请回答下列问题:
(1)解释变量和响应变量的关系是什么?
(2)是多少?
2.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下表所示.
零件数x个
10
20
30
40
50
60
70
80
90
100
加工时间ymin
62
68
75
81
89
95
102
108
115
122
(1)画出散点图;
(2)建立加工时间关于零件数的一元线性回归模型(精确到0.001);
(3)关于加工零件的个数与加工时间,你能得出什么结论?
综合运用
3.人口问题是关乎国计民生的大问题.下表是1949~2016年中国的人口总数(摘自《中国统计年鉴2017》).
年份
总人口/万人
年份
总人口万人
年份
总人口万人
1949
54167
1982
101654
2000
126743
1950
55196
1983
103008
2001
127627
1951
56300
1984
104357
2002
128