基本信息
文件名称:大数据挖掘导论与案例 习题答案 第5章 分类概念与方法.docx
文件大小:73.03 KB
总页数:10 页
更新时间:2026-03-06
总字数:约6.43千字
文档摘要
大数据挖掘导论与案例习题参考答案
第5章分类概念与方法
习题1:
使用决策树模型分类分为两个阶段:决策树模型构建和决策树模型应用。
第一阶段:决策树模型的构建
这个阶段的主要步骤如下:
(1)数据准备:收集已标注类别的数据集,并进行必要的数据预处理(如处理缺失值、异常值、连续属性离散化等)。将数据划分为训练集和测试集。
(2)选择划分属性:从根节点开始,将训练集视为当前节点数据集,根据所选算法使用的不纯性度量(如信息增益、增益率、基尼指数等),从可用特征中选择一个最佳特征,将当前节点的数据集划分为更纯的子集。
(3)节点分裂与树生长:根据所选特征的取值创建分支,每个分支形成一个子节点。对每个