1.据分布的特征可以从三个方面进行测度和描述:
一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;
二是分布的离散程度,反映各数据远离其中心值的趋势:
三是分布的形状,反映数据分布的偏态和峰态。
2.确定四分位数的方法
简单平均数
加权平均数
几何平均数
众数、中位数、平均数的关系
平均在右就偏右,平均在左就偏左
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;
离散程度越小,其代表性就越好。
异众比率主要用于衡量众数对一组数据的代表程度。
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;
异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
异众比率主要适合测度分类数据的离散程度,当然,对于顺序数据以及数值型数据也可以计算异众比率
不适合分类数据
平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。
平均差越大,说明数据的离散程度越大;反之,则说明数据的离散程度越小。
样本方差是用样本数据个数减1后去除离差平方和,其中样本数据个数减1即n-1称为自由度
如果一组数据的分布是对称的,则偏态系数等于0;
如果偏态系数明显不等于0,表明分布是非对称的。
若偏态系数大于1或小于一1,称为高度偏态分布;
若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布
偏态系数越接近0,偏斜程度就越低。
当K0时为尖峰分布,数据的分布更集中;
当K0时为扁平分布,数据的分布越分散。
1、一组数据的分布特征可以从哪几个方面进行测度?
可以从数据分布的集中趋势、离散程度和分布的偏态与峰态三个方面进行测量。
集中趋势反映了各数据向其中心支靠拢或聚集的程度;
离散程度反映了各数据原理其中心值的趋势;
偏态与峰态反映了数据分布的图像形状。
2、简述众数、中位数和平均数的特点和应用场合。
众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数只有在数据量较多时才有意义。主要适合作为分类数据的集中趋势测度值。
中位数是一组数据中间位置上的代表值,不受极端值影响,当数据分布的偏斜较大时,可以使用中位数。主要适合作为顺序数据的集中趋势测度值。
平均数是针对数值型数据计算的,而且利用了全部数据信息。当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,这时应选平均数作为集中趋势的代表值。但平均数的主要缺点是易受极端值的影响;对于偏态分布的数据,平均数的代表性较差。
3、简述异众比率、四分位差、方差或标准差的应用场合。
异众比率主要用于测量分类数据的离散程度;
四分位差主要用于测量顺序数据的离散程度;
方差或标准差主要用于测量数值型数据的离散程度。
4、标准分数有哪些用途?
标准分数给出了一组数据中各数值的相对位置。
在对多个具有不同量纲的变量进行处理时,常需要对各变量进行标准化处理。
它还可以用来判断一组数据是否有离群数据。
5、为什么要计算离散系数?
方差和标准差是反映数据离散程度的绝对值,一方面其数值大小受原变量值本身水平高低的影响;
另一方面,他们与原变量的计量单位相同,采用不同计量单位的变量值,其离散程度的测度值也就不同。
6、测度数据分布形状的统计量有哪些?
对于分布形状的测度有偏态和峰态。
测度偏态的统计量是偏态系数;
测度峰态的统计量是峰态系数。