如何用SPSS探测及检验异常值
一、采用数据探索过程探测异常值
SPSS菜单实现程序为:主菜单–“Analyze”–“DescriptiveStatistics”–“Explore……”选项
–“Statistics”按钮–选中“Outliers”复选框。输出结果中将列出5个最大值和5个最小值作为
异常的嫌疑值。
二、采用箱线图(boxplot)探测异常值
箱线图比较直观、形象,易于理解,因此它在统计分析中占有非常重要的地位。
1.利用上述的数据探测过程,在“Explore”对话框中单击“Plots”,出现如图2所示的对话框,
通过“Boxplots”方框可以确定箱线图的生成方式。“Factorlevelstogether”复选框表示将要为
每个因变量创建一个箱线图,“Dependenttogether”复选框表示将为每个分组变量水平创建
箱线图,“None”复选框表示不创建箱线图。
2.直接利用SPSS中的画图功能实现箱线图,SPSS给出了两种箱线图,一种是基本箱线图,
另一种是交互式箱线图。基本箱线图的SPSS菜单实现为:点击主菜单中的“Graphs”选项,在
弹出的一级菜单中选择“Boxplot……”选项。交互式箱形图的SPSS菜单实现为:点击主菜单中
的“Graphs”选项,在弹出的一级菜单中点击“Interactive”选项,在弹出的二级菜单中选择
“Boxplot……”选项。下面仍以A公司雇员分工种的开始工资为例构造基本箱线图(如图3)。箱
线图中的“○”表示可疑的异常值,此处异常值的确定采用的是“五数概括法”,即:变量值超过
第75百分位点和25百分位点上变量值之差的1.5倍(箱体上方)或变量值小于第75百分位点
和25百分位点上变量值之差的1.5倍(箱体下方)的点对应的值。
三、SPSS14后的新功能Dat–Validation:如何设置。。。
四、Z分标准化法(3δ法):±3δ以外的数据为高度异常值,应予剔除。
五、数据异常值的检验
SPSS中没有提供直接检验异常数据的工具,但是使用SPSS能使异常值的检验工作变得非常
方便。通过SPSS中的Frequencies等过程,可以对指定变量的数据同时得到均值、方差等
统计量,代入上述的公式,结合查表,很快就能得出检验结果。在多个异常数据下,使用
SPSS更显方便,因为剔除前一个异常数据后,需要对剩余的数据重新计算均值和方差,如
果数据很多,用手工计算将是很烦琐的事情,而且准确度不高。而通过SPSS,只需要重新
选择数据以后,重复一次Frequencies过程的操作就可以了。
分别对含异常值和删去异常值两种情况下的数据进行分析,并比较后才能增加可信度,避免
误删。
六、SPSS中异常值的剔除
发现异常值后,把大于等于最小异常值或小于等于最大异常值的值用Dat主菜单里的Cases
Select子菜单里的条件设置按钮,就可以自动剔除异常值。
承接心得1,数据预处理第二点异常值的处理。我大概学了两门统计软件SPSS和Stat,SPSS
用的时间久些,熟悉一下,Stat最近才学,不是太熟。关于这点我结合着来说。关于异常
值的处理可分为两点,一是怎么判定一个值是异常值,二是怎么去处理。判定异常值的方法
我个人认为常用的有两点:1是描述性统计分析,看均值、标准差和最大最小值。一般情况
下,若标准差远远大于均值,可粗略判定数据存在异常值。2是通过做指标的箱图判定,箱
图上加“*”的个案即为异常个案。发现了异常值,接下来说怎么处理的问题。大概有三种方
法:一是正偏态分布数据取对数处理。我做农户微观实证研究,很多时候得到的数据(如收
入)都有很大的异常值,数据呈正偏态分布,这种我一般是取对数处理数据。若原始数据中
还有0,取对数ln(0)没意义,我就取ln(x+1)处理;二是样本量足够大删除异常值样本;三
是从stata里学到的,对数据做结尾或者缩尾处理。这里的结尾处理其实就是同第二个方法,
在样本量足够大的情况下删除首尾1%-5%的样本。缩尾指的是人为改变异常值大小。如有一
组数据,均值为50,存在几个异常值,都是500多(我这么说有点夸张,大概是这个意思),
缩尾处理就是将这几个500多的数据人为改为