基本信息
文件名称:临床决策支持:电子健康记录分析_(9).决策树与随机森林模型.docx
文件大小:28.23 KB
总页数:25 页
更新时间:2025-08-16
总字数:约1.45万字
文档摘要

PAGE1

PAGE1

决策树与随机森林模型

决策树的基本原理

决策树是一种监督学习算法,广泛应用于分类和回归任务。它通过递归地将数据集分割成子集,每个子集对应一个决策节点,直到每个子集中的数据都属于同一类或满足某种停止条件。决策树的结构类似于树状图,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试结果,每个叶节点代表一个类别或一个预测值。

信息增益与基尼不纯度

决策树的构建过程中,选择最优的分裂属性是关键。常见的分裂标准有信息增益和基尼不纯度。

信息增益

信息增益是基于信息熵的概念。信息熵衡量的是数据集的混乱程度,公式如下:

H

其中,S是数据集,c是类别数,p