第6章方差分析6.1方差分析概述6.2单因素方差分析6.3双因素方差分析6.4SPSS应用举例1
2引入案例为了探究扶贫政策与贫困户类型对扶贫效果的影响,对a县不同贫困类型实施政策前后贫困户的收入变化情况进行了调查,调查结果如表6-1所示。从表6-1中数据能否推断出扶贫政策与贫困户类型对贫困户收入有影响?解决此问题需要应用到方差分析,本章将介绍相关知识。
第1节方差分析概述6.1.1概念6.1.2基本思想6.1.3一般提法和基本假定3
6.1.1概念4在上述案例中,若想知道在实施扶贫政策后不同贫困类型对贫困户收入的影响程度,利用已经学过的假设检验的知识,我们可以采用两两依次配对的方法得出4项因素之间是否具有显著差异,但当研究因素涉及n项时需要利用n(n-1)/2次假设检验,工作量随n的增大而大大增加。除此之外,假设检验次数增多还会使得偶然因素造成的误差被放大,我们作出错误决策的风险也随之增大。
6.1.1概念5比如,上述案例中因有4项因素需要进行共计6次假设检验,若每次检验犯第I类错误的概率为α=0.05,则进行6次假设检验后犯第I类错误的概率就会累积到1-(1-α)6≈0.265,此时相应的置信水平就会下降到0.956=0.735。由此可见多次假设检验带来的误差是不可忽略的,此时引入方差分析就显得十分必要。方差分析只需通过一次性的检验即可得出结论,既避免了大量工作的麻烦,也大大降低了错误不断累积造成最终误判(即拒绝了真实的假设)的可能性。定义6.1方差分析(analysisofvariance,ANOVA):是用于一次性检验两个以上样本均值是否存在显著差异的统计方法,又称为“变异数分析”或“F检验”。
6.1.1概念6方差分析的基本术语包括以下几种:因素或因子:是所要研究的变量。引例中的因素就是我们所要研究的是否实行扶贫政策与贫困户类型。水平或处理:是因素在试验中的不同表现状态。引例中老年贫困、因病致贫、因学致贫、受教育程度低这4个类型可以看作是因素贫困户类型的水平(处理)。观察值:是在每个因素水平下得到的样本数据。引例中的观察值就是4个贫困户类型与是否实行扶贫政策下对应的贫困户收入数据。总体与样本的概念详见第2.1节。在方差分析中可将因素的每一个水平都看作一个总体,而样本数据就是对应的观察值。
6.1.2基本思想7方差分析由英国统计学家罗纳德?艾尔默?费歇尔于1923年提出,他在研究不同的混合肥料是否对马铃薯产量产生影响这一实验中受到启发,提出了方差分析的思想并首次将其实现应用。方差分析通过数据的波动对因素的影响力进行衡量。方差分析的基本思想可概括为:通过分析不同来源的数据波动对总变异的贡献大小来确定可控因素对研究结果影响力的大小,具体可通过对数据误差来源的分析来判断因素影响作用是否显著。
6.1.2基本思想8引入案例中,我们关注的问题是:贫困户类型是否对贫困户收入产生影响,或贫困户类型不同对贫困户收入的影响有多大?在这个问题中,我们探究的是贫困户类型这一因素对收入情况的影响度。而调研数据本身会有波动,这种波动可用误差来表示。例如,在某次调査中,因病致贫的贫困户收入比因学致贫贫困户收入少1000元,不能说明因病致贫的贫困户收入比因学致贫收入少,但因病致贫的贫困户收入比因学致贫贫困户收入少1000元,那么可能就是由于贫困户类型的不同造成贫困户收入的不同。此时需要探讨引起这种误差的来源究竟是什么:导致因病致贫的贫困户收入比因学致贫贫困户收入不同的原因可能是贫困户类型的不同,也可能是其他因素(如人们的居住环境、地方经济发展水平等)造成的。
6.1.2基本思想9根据上述分析,我们将误差来源分为系统误差和随机误差两类。系统误差是指因素的不同水平(不同总体)之间观察值的差异。如引例中贫困户类型的不同造成的数据间的差异。随机误差是指因素的同一水平(总体)下,样本各观察值之间的差异,如引例中其他因素造成的数据间的差异。接下来就可以通过误差来源来度量因素的影响度:如果系统误差大得多,那么说明我们关注的因素对结果的影响程度较大;如果系统误差和随机误差的大小差异不大,那么说明因素对结果的影响程度不大。
6.1.2基本思想10在方差分析中,我们通过方差来衡量数据波动或数据变异(数据偏离均值)的程度:通过方差分解,将方差分解为水平间方差与水平内方差,这两种方差分别隐含着系统因素与随机因素造成的数据波动信息。分析两类方差对总方差的贡献度,从而确定研究的因素对问题结果的影响程度:如果数据误差都是由随机误差造成的,那么水平间的方差与水平内的方差比值几乎相等;如果数据误差不仅包含随机误差,也包含系统误差,那么两方差之比就会比较大。按照上述思路就可以判断所研究的因素对研究问题结果的影响程度,