临床决策支持：电子健康记录分析_（9）.决策树与随机森林模型.docx

基本信息

文件名称：临床决策支持：电子健康记录分析_（9）.决策树与随机森林模型.docx

文件大小：28.23 KB

总页数：25 页

更新时间：2025-08-16

总字数：约1.45万字

文档摘要

PAGE1

决策树与随机森林模型

决策树的基本原理

决策树是一种监督学习算法，广泛应用于分类和回归任务。它通过递归地将数据集分割成子集，每个子集对应一个决策节点，直到每个子集中的数据都属于同一类或满足某种停止条件。决策树的结构类似于树状图，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试结果，每个叶节点代表一个类别或一个预测值。

信息增益与基尼不纯度

决策树的构建过程中，选择最优的分裂属性是关键。常见的分裂标准有信息增益和基尼不纯度。

信息增益

信息增益是基于信息熵的概念。信息熵衡量的是数据集的混乱程度，公式如下：

其中，S是数据集，c是类别数，p