第八讲安全数据的聚类分析和判别分析
1聚类分析和判别分析概述2安全数据的聚类分析3安全数据的判别分析提纲
8.1.1聚类分析概述
Anintelligentbeingcannottreateveryobjectitseesasauniqueentityunlikeanythingelseintheuniverse.Ithastoputobjectsincategoriessothatitmayapplyitshard-wonknowledgeaboutsimilarobjectsinthepasttotheobjectathand.智者观物,固非以一物视之,别之以类,格而致知,推而及其他者也。
观察个体的特征将群体中的个体归为不同的群/簇(cluster)1.聚类分析的直观理解8.1.1聚类分析概述
123在市场营销中,基于消费者的历史交易信息、消费者背景等对消费者进行划分,从而对不同类型的消费者实施不同的营销策略——精准营销。在金融领域,为获得较为平衡的投资组合,需要首先基于一系列金融表现变量(如回报率、波动率、市场资本等)对投资产品(如股票)进行归类。这种归类思想也可以应用于天文学、考古学、医学、化学、教育学、心理学、语言学和社会学等。市场营销其他科学领域金融市场营销2.聚类分析应用场景8.1.1聚类分析概述
聚类分析是根据“物以类聚”的原理,对样品或指标进行分类的一种多元统计分析方法,将安全统计对象的集合分成多个类的分析过程。通常聚类分析可分为Q型聚类和R型聚类,Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。3.聚类分析的含义8.1.1聚类分析概述
判别分析是在已将安全现象分成若干类、并已经取得各种类型的一批已知安全统计样品的观测数据的基础上,根据某些准则来建立判别模型,然后对未知类型的安全统计样品判别其归属问题的一种多变量统计分析方法。核心思想是根据已知的训练数据(包含输入特征及其类别标签)来推测出一条或多条判别规则,从而对新的、未标记的样本进行分类。这种分类过程通常依赖于数学模型,目标是最大化类别之间的差异,同时尽量减少类别内的差异。8.1.2判别分析概述
8.1.2判别分析概述
在安全统计学领域,判别分析能够有效地对数据进行分类,从而帮助识别潜在的安全威胁和异常行为:风险预测与防范:分析大量历史安全数据,识别潜在的安全威胁或风险。安全决策与政策制定:帮助不同领域之间进行跨界整合,对政策的效果进行分类和评估。公共安全与应急响应:快速识别事件的性质,合理安排救援资源和优先级。
提纲1聚类分析和判别分析概述2安全数据的聚类分析3安全数据的判别分析
8.2.1聚类与分类的区别
分类在分类分析中,个体的类别标签固有存在,只是对于新观测个体暂时未知,分类过程旨在根据其特征预测类别,后续可知是否预测准确,故属于有监督学习。(supervisedlearning)聚类在聚类分析中,类别的个数及个体标签本身并不存在,只是根据个体特征的相似性形成“合理”的聚集,并无“正确答案”参考,故其属于无监督学习。(unsupervisedlearning)分类是有指导的学习,聚类是一种无指导的学习。通过一定的方法在逐步分类过程中将没有类标志的安全统计数据聚集成有意义的类。
名称公式欧氏距离(EuclideanDistance)马氏距离(MahalanobisDistance)切比雪夫距离(ChebyshevDistance)闵可夫斯基距离(MinkowskiDistance)8.1.3样品相似性的度量
??1.样品相似度的度量——距离
2.变量间相似系数的计算方法?8.2.2样品相似性的度量名称计算公式夹角余弦Pearson相关系数变量点的距离
不同的距离公式的侧重点和实际意义有所不同,因此在进行聚类分析时,应根据实际情况选择合适的距离公式。在选择距离公式时,应遵循以下三个基本原则:1要考虑所选择的距离公式在实际应用中所具有的意义2要综合考虑对安全统计样本观测数据的预处理与将要采用的聚类分析方法3要考虑安全现象的特点与计算的工作量3.距离选择的原则8.2.2样品相似性的度量
1.系统聚类法
系统聚类又称为层次聚类。在给出安全统计样品之间、类与类之间的距离定义的基础上,首先将每个安全统计样品各当作一类,计算出各个类(即各个安全统计样品)之间的距离;然后再将最近的两类合并,距离较远的安全统计样品后聚成类,过程一直进行下去,每个安全统计样品总能聚到合适的类中。简单描述为:第一步:假设一个安全统计总体内有n个安全统计样品,将每个样品独自聚成一类,共有n类;第二步:根据所确定的样品“距离”公式,把距离较近