地球化学数据
统计分析与解释龚庆杰推荐用书人民邮电出版社出版03余建英何旭宏编著02《数据统计分析与SPSS应用》01第一讲地球化学数据统计基础 一、地化数据的特点 各种地球化学特征在不同的研究对象(样品或测点)上进行测试,可以得到各自的数值。这种在不同对象上可以取值的地球化学特征称为地球化学变量。 地球化学变量具有3个特点。即它具有随机变量的性质,又具有确定性变量的特征,还具有区域化变量的结构性。随机性 1.地球化学样品的采取具有抽样的性质 2.从成因上看,地球化学变量的取值受多因素的控制 3.地球化学变量在测试过程中有测试误差,误差就带有随机性特点确定性 每一个研究对象在指定的时刻,某种地球化学特征的真实数值是客观存在的,是有确定数值的。这个值不依赖于人们是否已经测试到了。区域结构性 所谓结构性是指地球化学变量由于受地质因素的控制,在不同方向上变化率的不同,具有不同的自相关的特性。当一个变量分布在空间内时(即赋于其空间位置时),称为区域化变量01020304连续型变量连续型变量在取值范围内有不可数无限多个值。这种变量可以取在某一个数值区间内的任何数值。地球化学变量的分类按取值范围内的可能,分为3类:离散型变量离散型变量在取值范围内取有限多个或可数无限个值。二元变量二元变量也称二态变量或有无变量,它是一种只有两个取值的离散变量。为叙述方便,先设变量x在两个观测对象A与B中的取值分别为xA和xB。根据给予某个变量具体数值的方式,划分为4类:名义型变量把观测值分成互不相交的组别。这些组别可以用它们的名字、特征或符号来标识。名义型变量有序型变量对观测特征可以列出一个等级大小的顺序。对于A和B两个对象,它不仅能区别出xA=xB或xA≠xB,还能进一步区分出xAxB或xAxB,即有了大小顺序的差别。但它们的级差不是等距的。有序型变量贰壹叁间隔型变量不但能区分它们之间的值是相等、不等、谁大谁小,而且还能表示谁比谁大多少。间隔型变量可以定量地表示它们之间的差异,但间隔型变量没有绝对零值。间隔型变量比例型变量比间隔型变量更进一步。它具有间隔型变量的标识功能,而且还有真正的零点。以上4类变量中,名义型变量和有序型变量属于定性变量,间隔型变量和比例型变量为定量变量。一般来说,定性变量只能参加布尔运算,定量变量可作代数运算。比例型变量地球化学变量按其预处理取值方法的不同还可以分为:地球化学变量按其预处理取值方法的不同还可以分为: 1.实测变量 它又叫观察变量或原始变量。它是用仪器或特定的分析手段对研究对象直接测定所得。2.综合变量 综合变量是将两个或多个原始观察值加以综合,组成一个新的变量,具有特定的地质意义。 3.人为变量 它是根据地质人员对地质现象和成矿理论人为确定的变量。数据统计基础01方差分析02相关分析03回归分析04聚类分析05判别分析06因子分析07地球化学数据统计的基本内容A均值(Mean)和均值标准误差()B定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。C计算公式:D总体平均数期望:E样本平均数:统计描述中位数(Median)把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。一个大小为N的数列,要求其中位数,首先应把该数列按大小顺序排列好,如果N为奇数,那么该数列的中位数就是(N+1)/2位置上的数;如果N为偶数,中位数则是该数列中第N/2与第N/2+1位置上两个数值的平均数定义:计算公式:12345统计描述众数(Mode)定义:众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。计算公式:手工计算众数比较麻烦,需要统计数据的次数分布。统计描述01全距(Range)02定义:03全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。04计算公式:05Range=最大值-最小值统计描述方差(Variance)和标准差(StandardDeviation)12方差是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。3定义:统计描述方差(Variance)