基本信息
文件名称:Matlab 数据分析 课件 康海刚 第5章 数据探索与分析.pptx
文件大小:10.87 MB
总页数:47 页
更新时间:2025-01-20
总字数:约2.7千字
文档摘要

Matlab数据分析

第1章数据的基本概念及其应用第2章Matlab基础第3章随机模拟第4章数据预处理第5章数据探索与分析第6章多元线性回归模型第7章聚类分析第8章分类

第5章数据探索与分析

5.1数据的特征统计量5.1.1中心度量趋势:均值、中位数、众数5.1.2常用的变异程度度量1.极差2.方差3.标准差4.标准差系数5.四分位数间距

5.1数据的特征统计量6.百分位数5.1.3分布形态

5.2基本统计描述的可视化5.2.1分类型数据频数分布及其可视化例5.1表5-1是X公司员工收入基本状况调查表,用此表数据来说明对于分类型数据的频数统计及其数据可视化。

5.2基本统计描述的可视化例5.2使用Matlab数据统计信息。(1)打开“数据统计信息对话框”“数据统计信息”对话框可帮助您计算和绘制数据的描述性统计量。

5.2基本统计描述的可视化

5.2基本统计描述的可视化

5.2基本统计描述的可视化(2)设置绘图上数据统计量的格式“数据统计信息”对话框使用颜色和线型将统计量与绘图上的数据区分开来。1)在Matlab窗口中,单击工具栏中的(编辑绘图)按钮。2)双击要编辑其显示属性的绘图上的统计量,例如,双击表示Station2均值的水平线。(3)将统计量保存到Matlab工作区执行下列步骤可将统计量保存到Matlab工作区。

5.2基本统计描述的可视化(4)查看新结构体变量可输入变量名称:

5.2基本统计描述的可视化(5)生成代码文件示例的此部分显示如何从图形生成Matlab代码文件,再将代码应用至新数据以重新生成相同格式的绘图和统计量。5.2.2直方图1.histogram函数绘制直方图

5.2基本统计描述的可视化例5.3创建直方图。1)生成10000个随机数并创建直方图。2)对分类为25个等距离散化的10000个随机数绘制直方图,如图5-13所示。

5.2基本统计描述的可视化3)生1000个随机数并创建直方图。

5.2基本统计描述的可视化2.确定基本概率分布1)生成5000个均值5、标准差力2的正态分布随机数。2)对于均值为5、标准差为2的正态分布,叠加一个概率密度函数图,如图5-17所示。

5.2基本统计描述的可视化例5.4对分类数据进行绘图。1)工作区变量Location是一个字符向量单元数组,它包含患者就医的3个唯一医疗机构。2)工作区变量。3)绘制直方图。4)仅为健康状况评估为Fair或Poor的患者绘制医院位置直方图,如图5-19所示。

5.2基本统计描述的可视化5)创建饼图。

5.2基本统计描述的可视化6)创建帕累托图。

5.2基本统计描述的可视化7)创建散点图。5.2.3分位数图和经验累计分布函数

5.2基本统计描述的可视化5.2.4分位数-分位数图——q-q图

5.2基本统计描述的可视化

5.2基本统计描述的可视化5.2.5箱形图1)最小值。2)第一个四分位数(Q1)。3)中位数(Q2)。4)第三个四分位数(Q3)。5)最大值。例5.5对于下述这组数据:331033353450348034803490352035403550365037303925,作出箱形图。1)画箱形图时,把第和第三四分位数作力箱体的边缘,Q1=3465,Q3=3600。2)在中位数(3505)位置与箱体内画一条垂线,因此中位数线就把数据平分为两部分。3)通过使用四分位数间距IQR=Q3-Q1,定好界限的位置。

5.2基本统计描述的可视化4)图5-25中的虚线被称触须线(Whisker)。5)最后,每个异常值的位置用符号*表示在图5-25中,看到了一个异常值3925。箱形图的作用有以下几个。1)箱形图非常直观地反映了样本数据的分散程度以及总体分布的对称性和尾重。2)利用箱形图可以直观地识别样本数据中的异常值。3)可比较几组数据的形状。

5.2基本统计描述的可视化

5.2基本统计描述的可视化例5.6绘制均匀分布随机样本与指数分布随机样本的箱形图(见图5-26)。

5.2基本统计描述的可视化例5.7绘制服从标准正态分布随机数箱形图(见图5-27)。

5.2基本统计描述的可视化5.2.6散点图

5.2基本统计描述的可视化

5.2基本统计描述的可视化

5.3度量数据的相似性和相异性5.3.1数据矩阵、相异性矩阵、相似性矩阵1)数据矩阵。2)相异性矩阵。3)相似性矩阵。

5.3度量数据的相似性和相异性5.3.2数值属性的相似性:相关系数1.协方差

5.3度量数据的相似性和相异性