专题57统计分析
知识必备
1成对数据的统计相关性
(1)变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断注:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
(2)散点图
将样本中的n组成对数据样本xi,y
如果整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
如果当一个变量的值增加时,另一个变量的相应值也呈现减小的趋势,我们就称这两个变量负相关注:从散点图分布来看,如果两个变量正相关,那么散点图中的点散布在从左下角到右上角的区域内,如图(1)所示;从散点图分布来看,如果两个变量负相关,那么散点图中的点散布在从左上角到右下角的区域内,如图(2)所示.
线性相关与非线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果练个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
(3)样本相关系数
若变量x的取值xi,变量y的观测值为yi1≤i≤n,则变量x
r=i=1nxixyiyi=1nx
①当r0时,表示两个变量正相关;当r0时,表示两个变量负相关.
②r越接近1,表示两个变量的线性相关程度越强:r越接近0,表示两个变量的线性相关程度越弱.
③当r=1时,所有数据点都在一条直线上当r=0时,只表明样本数据间没有线性相关关系,不能排除有其他相关关系.
④通常当r0
2一元线性回归模型及应用
(1)线性回归
若Y=bxae,Ee=0,与x无关的De=σ2,其中e表示随机误差此时我们称Y关于x的一元线性回归模型,其中Y
对于一组具有线性相关关系的数据x1,y1,x2,y2,…,
这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做
(2)残差分析
对于响应变量y,通过观测得到的数据称为观测值yi,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差,ei称为相应于点xi,
残差图
通过残差分析,残差点xi
残差平方
通过残差平方和Q=i=1
相关指数(又叫决定系数)
用相关指数来刻画回归的效果,其计算公式是:R2
R2
3非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预测.
建立非线性回归模型的基本步蒀:
①确定研究对象,明确哪个是解释变量,哪个是响应变量;
②画出确定好的解释变量和响应变量的散点图,观察它们之间的关系(是否存在非线性关系);
③由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
④通过换元,将非线性回归方程模型转化为线性回归方程模型;
⑤按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
⑥消去新元,得到非线性回归方程;
⑦得出结果后分析残差图是否有异常若存在异常,则检查数据是否有误,或模型是否合适等.
常见的非线性回归模型
①指数函数型y=cax
两边取自然对数,lny=lncax
令y=lnyx=x
(2)对数函数型y=blnx
令y=yx=lnx
③幂函数型y=a
两边取常用对数,lgy=lgaxn
令y=lgyx=lgx
④二次函数型y=b
令y=yx=
⑤反比例函数型y=ab
令y=yx=
3列联表与独立性检验
(1)分类变量和列联表
分类变量
我们经过使用一种特殊的随机变量来区别不同的现象或性质,即变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
列联表
定义:列出的两个分类变量的频数表称为列联表.
2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别有两类为x1,x2和
y
y
总计
x
a
b
a
x
c
d
c
总计
a
b
a
从2×2列表中,依据aab与
等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
观察等高条形图发现aab与
(2)独立性检验
零假设H0:假设分类变量X和Y独立,我们称H
独立性检验
利用χ2的取值推断分类变量X和Y是否独立的方法称为χ
其中,χ2=n
注: