第九章
组合分类器
;分类方法
基于经典统计理论的分类法
参数法
从训练集中直接得出分类结果
;该方法是在已知先验类别概率和类条件概率,用贝叶斯公式求出判别函数。
优点:最优分类(理论)
缺点:实际应用中很难实现
直接求取分类判别函数(分类面)
事先能确定判别函数或分类面的形式,再通过训练样本确定其中的参数。
如SVM,线性判别分析等
非参数
如近邻法等
;评估分类法的准确率
保留法(holdout)
k-倍交叉验证(k-foldcrossvalidation)
提高分类法的准确率
“arcing”(adaptivereweightingand
combining):重新使用或选择数据,以期达到
改善分类器性能的目的。
bagging
boosting
;holdout
划分为两个独立的数据集:
训练集,测试集
变形:随机子选择
;k-倍交叉验证
将数据集分为k个子集;
用k-1个子集作训练集,1个子集作测试集,然后k次交叉验证求平均。
;Bagging
Boosting
组合分类器的核心思想是:对于多个单独分类器的结果进行组合。
;组合分类器的核心思想是对于多个单独的分类器的结果进行加权整合,以获得一个更好的性能!;泛化误差
计算复杂度
其他评价标准;假设E(s)表示在数据集s上的组合分类结果,那么E(s)的泛化误差则是根据带类标的样本空间分布对任意数量选定样本的误分类概率。
估计泛化误差实验方法
保留法
交叉验证估计
自举法
;计算复杂度一般是通过比较每一分类器在执行过程中耗费的CPU总数,可以将其分为如下三种度量:;鲁棒性
稳定性
可解释性
大规模数据的可测量性
;Bagging集成算法;Bagging集成算法;Bagging集成算法架构;例题分析;
;;Bagging集成算法分析;随机森林(1);随机森林(2);Boosting背景;Boosting背景;Boosting;Boosting;Boosting总结(1);Boosting类别中的一种;
非常成功的机器学习算法,由YoavFreund和RobertSchapire于1995年提出,他们因此获得了2003年的哥德尔奖(G?delPrize)。
前一轮训练结果将用来调整本轮训练的样本,从而优化本轮训练出的模型,使得整个的模型更加精确。AdaBoost侧重于调整本轮样本的样本权重,从而改变样本的分布。
;AdaBoost;XGBoost(1);XGBoost(2);Bagging和boosting区别联系(1);Bagging和boosting区别联系(2);集成学习中多样性个体的构造
基于不同训练数据集的构造方式(bagging,boosting)
基于不同特征集的构造方式(特征选择;随机投影;随机子空间)
基于不同性质的学习机器或分类器的构造方式
基于相同学习机器的不同学习参数的构造方式
其他方法,如嵌入随机性,处理输出等。
集成学习算法中的合并方法
投票法(Voting);平均法(Averaging);加权平均法(Weightedaveraging);其他方法;集成学习系统的构成;非监督集成学习;个体聚类构造方面现有方法
基于Bagging、Boosting的聚类集成方法。
多目标数据聚类方法,用来处理具有多种不同结构的数据划分问题。
……
合并方法的研究
由于聚类结果仅仅是一种符号,不同聚类结果间并无对应关系,例如两个聚类结果与
虽然表现形式不同,实际上却是在逻辑上完全相同的聚类,这一现实使得多个聚类结果的合并比分类集成中的合并要困难得多。;多个聚类结果的合并方法归纳如下:
投票法:传统投票法,以及加权投票法等。投票前要解决类标向量的对应问题。
基于关联矩阵(Co-associationmatrix)的方法:根据所有成员的聚类结果建立一个关联矩阵,最终聚类结果可通过投票法或层次聚类方法,如Single-link和Average-link获得。
基于超图的方法:Strehl和Ghosh提出了3种不同的合并方法,分别应用不同的超图操作获得最终决策。
其它方法:如基于混合模型的非监督集成方法,最终决策是对应于最大似然问题的解,采用EM算法实现。
;38