基本信息
文件名称:大数据挖掘导论与案例 习题答案 第5章 分类概念与方法.docx
文件大小:73.03 KB
总页数:10 页
更新时间:2026-03-06
总字数:约6.43千字
文档摘要

大数据挖掘导论与案例习题参考答案

第5章分类概念与方法

习题1:

使用决策树模型分类分为两个阶段:决策树模型构建和决策树模型应用。

第一阶段:决策树模型的构建

这个阶段的主要步骤如下:

(1)数据准备:收集已标注类别的数据集,并进行必要的数据预处理(如处理缺失值、异常值、连续属性离散化等)。将数据划分为训练集和测试集。

(2)选择划分属性:从根节点开始,将训练集视为当前节点数据集,根据所选算法使用的不纯性度量(如信息增益、增益率、基尼指数等),从可用特征中选择一个最佳特征,将当前节点的数据集划分为更纯的子集。

(3)节点分裂与树生长:根据所选特征的取值创建分支,每个分支形成一个子节点。对每个