PAGE6/NUMPAGES6
选修1-2
第一章统计案例(谷杨华)
一、知识梳理
1.思维导图
2.知识梳理
一、两个基本思想
1.回归分析的基本思想
回归分析包括线性回归分析和非线性回归分析两种,而非线性回归分析往往可以通过变量代换转化为线性回归分析,因此,回归分析的思想主要是指线性回归分析的思想.
2.独立性检验的基本思想
独立性检验的基本思想类似于反证法.要确认两个分类变量有关系的可信程度,先假设两个分类变量没有关系,再计算随机变量的观测值,最后由的观测值很大在一定程度上说明两个分类变量有关系.
二、两个重要参数
1.相关指数
相关指数是用来刻画回归模型的回归效果的,其值越大,残差平方和越小,模型的拟合效果越好.
2.随机变量
随机变量是用来判断两个分类变量在多大程度上相关的变量.独立性检验即计算的观测值,并与教材中所给表格中的数值进行比较,从而得到两个分类变量在多大程度上相关.
三、两种重要图形
1.散点图
散点图是进行线性回归分析的主要手段,其作用如下:
(1)是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;
(2)是判断样本中是否存在异常.
2.残差图
残差图可以用来判断模型的拟合效果,其作用如下:
(1)是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.
(2)是确认样本点在采集中是否有人为的错误.
二、误区警示
1.回归分析:
(1)回归分析是建立在两个具有相关性变量之间的一种模拟分析,因此必须先判断两变量是否具有相关性.
(2)线性回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过点,可能所有的样本数据点都不在直线上.
(3)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).
2.独立性检验:
(1)通过独立性检验得到的结论未必正确,它只是对一种可靠性的预测.
(2)在2×2列联表中,当数据a,b,c,d都不小于5时,才可以用K2检测.
(3)独立性检验易错误理解假设检验原理,导致得到相反的结论
三、题型探究
(一)回归分析思想的应用
回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.
例1一个车间为了规定工时定额,需确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下表:
(1)画出散点图,并初步判断是否线性相关;
(2)若线性相关,求线性回归方程;
(3)求出相关指数;
(4)作出残差图;
(5)进行残差分析;
(6)试制订加工200个零件的用时规定.
解(1)散点图,如图所示.
由图可知,x,y线性相关.
(2)x与y的关系可以用线性回归模型来拟合,不妨设回归模型为
将数据代入相应公式可得数据表:
∵=55,=92,
∴,
.
故线性回归方程为y=0.670x+55.133.
(3)利用所求回归方程求出下列数据:
∴
(4)∵,利用上表中数据作出残差图,如图所示.
(5)由散点图可以看出x与y有很强的线性相关性,由R2的值可以看出回归效果很好.
由残差图也可观察到,第2,5,9,10个样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误.
(6)将x=200代入回归方程,得≈189,
所以可以制订189min加工200个零件的规定.
点评:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R2来检验模型的拟合效果,从而得到最佳模型.
(二)独立性检验
独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.
例1.电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.根据已知条件完成2×2列联表,并据此资料你是否认为“体育迷”与性别有关?
附:
解:由频率分布直方图可知,在抽取的100名观众中,“体育迷”有25名,“非体育迷”有75名,又已知100名观众中女性有55名,女“体育迷”有10名.所以男性有45名,男“体育迷”有15名.从而可完成2