Matlab数据分析
第8章分类
8.1分类算法简介8.1.1逻辑回归分类算法1)y是一个定量的变量,这时就用通常的regress函数对y进行回归。2)y是一个定性的变量,如y=0或1,这时就不能用常规的regress函数对y进行回归,而要使用逻辑回归(LogisticRegression)。1.工作原理2.最佳使用时机
8.1分类算法简介8.1.2K近邻分类算法1.エ作原理2.最佳使用时机3.K近邻分类算法的具体步骤1)初始化距离为最大值。2)计算未知样本和每个训练样本的距离dist。3)得到目前K个最邻近样本中的最大距离maxdist。4)如果distmaxdist,则将训练样本作为k最近邻样本。5)重复步骤2)~4),直到来知样本和所有训练样本的距离都算完。6)统计k个最近邻样本中每个类别出现的次数。7)选择出现频率最大的类别作未知类别出现的次数。
8.1分类算法简介8.1.3支持向量机分类算法1.工作原理2.最佳使用时机
8.1分类算法简介8.1.4人工神经网络分类算法1.工作原理2.最佳使用时机
8.1分类算法简介8.1.5朴素贝叶斯分类算法1.工作原理2.最佳使用时机
8.1分类算法简介8.1.6判别分析分类算法1.工作原理2.最佳使用时机
8.1分类算法简介8.1.7决策树分类算法1.工作原理2.最佳使用时机
8.1分类算法简介8.1.8集成学习分类算法1)Bagging的训练集是随机的,各训练集是独立的;而Boosting训练集的选择不是独立的,每次选择的训练集都依赖于上一次学习的结果。2)Bagging的每个预测函数都没有权重;而Boosting根据每次训练的误差得到该次预测函数的权重。3)Bagging的各个预测函数可以并行生成;而Boosting只能顺序生成。1.工作原理2.最佳使用时机
8.2分类的评判8.2.1评判指标1)TruePositive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象的数量。2)TrueNegative(TN):指模型预测为负(0)的,并且实际上也的确是负(0)的观察对象的数量。3)FalsePositive(FP):指模型预测为正(1)的,并且实际上是负(0)的观察对象的数量。4)FalseNegative(FN):指模型预测为负(0)的,并且实际上是正(1)的观察对象的数量。
8.2分类的评判(1)AccuracyRate(正确率)模型总体正确率,是指模型能正确预测、识别1和0的对象数量与预测对象总数的比值,公式为(2)Errorrate(错误率)模型总体的错误率,是指模型错误预测、错误识别1和0观察对象与预测对象总数的比值,也即是1减去正确率,公式为(3)Sensitivity(灵敏性)又称击中率或真阳率,模型正确识别为正(1)的对象占全部观察对象中实际为正(1)的对象数量的比值,公式为
8.2分类的评判(4)Specificity(特效性)又称为真负率,模型正确识别为负(0)的对象占全部观察对象中实际负(0)的对象数量的比值,公式为(5)Precision(精度)模型的精度是指模型正确识别正(1)的对象占模型识别正(1)的对象数量的比值,公式为(6)FalsePositiveRate(错正率)又称假阳率,模型错误识别为正(1)的对象占实际为负(0)的对象数量的比值,即1减去真负率,公式为
8.2分类的评判(7)NegativePredictiveValue(负元正确率)模型正确识别力负(0)的对象占模型识别为负(0)的观察对象总数的比值,公式为(8)FalseDiscoveryValue(正元错误率)模型错误识别正(1)的对象占模型识别正(1)的观察对象总数的比值,公式为
8.2分类的评判8.2.2ROC曲线和AUC
8.3判别分析分类的具体应用8.3.1判别分析的定义、特点和类型1.定义2.特点3.判别分析类型(1)距离判别首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧几里得距离、马哈拉诺比斯距离)。(2)Fisher判别利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的值判断新个体的类别。(3)贝叶斯判别(Bayes判别)计算新样品属于各总体的条件概率,比较概率的大小,然后将新样品判归次来自概率最大的总体。
8.3判别分析分类的具体应用8.3.2距离判别1.直接使用马哈拉诺比斯距离实现距离判别1)计算A、B两类的均值向量与协方差阵,即2)计算总体的协方差矩阵,即3)计算未知样本x