【最新精选】《数据挖掘》试题与答案.docx

基本信息

文件名称：【最新精选】《数据挖掘》试题与答案.docx

文件大小：29.43 KB

总页数：18 页

更新时间：2025-06-11

总字数：约6.81千字

文档摘要

【最新精选】《数据挖掘》试题与答案

一、单项选择题（每题2分，共20分）

1.以下哪项不是数据挖掘的主要任务？（）

A.分类与预测B.关联规则挖掘C.数据清洗D.聚类分析

答案：C

解析：数据清洗属于数据预处理阶段的任务，数据挖掘的核心任务包括分类、回归、关联规则、聚类、异常检测等。

2.在决策树算法中，信息增益的计算基于（）。

A.信息熵B.基尼系数C.均方误差D.余弦相似度

答案：A

解析：信息增益通过计算划分前后信息熵的减少量来衡量特征的重要性，公式为：信息增益=原熵-条件熵（给定特征后的熵）。

3.以下关于K-means聚类算法的描述，错误的是（）。

A.需要预先指定聚类数k

B.对初始质心的选择敏感

C.适用于任意形状的簇

D.迭代更新质心直到收敛

答案：C

解析：K-means假设簇是凸形的、球形的，对非凸形状的簇（如环形、月牙形）效果较差，此时DBSCAN等基于密度的算法更合适。

4.Apriori算法的核心思想是（）。

A.频繁项集的子集必频繁

B.非频繁项集的超集可能频繁

C.利用支持度和置信度同时筛选规则

D.通过随机森林提升挖掘效率

答案：A

解析：Apriori利用“先验性质”（如果一个项集是非频繁的，其所有超集也一定是非频繁的）来剪枝，减少候选项集的数量。

5.以下哪个指标用于评估分类模型的召回率？（）

A.TP/(TP+FN)B.TP/(TP+FP)C.TN/(TN+FP)D.(TP+TN)/(TP+TN+FP+FN)

答案：A

解析：召回率（Recall）衡量模型正确识别正类的能力，公式为真正例（TP）占所有实际正例（TP+FN）的比例。

6.数据预处理中，处理缺失值的方法不包括（）。

A.删除含缺失值的记录B.用属性均值填充C.用KNN算法预测填充D.直接忽略缺失值进行建模

答案：D

解析：直接忽略缺失值可能导致数据分布偏移或模型偏差，需通过删除、填充（均值/中位数）或预测（如KNN）等方法处理。

7.以下属于无监督学习的算法是（）。

A.逻辑回归B.K-meansC.随机森林D.SVM（支持向量机）

答案：B

解析：无监督学习从无标签数据中发现模式，K-means聚类无需标签；其他选项均为有监督学习（需输入特征和标签）。

8.在关联规则中，规则“牛奶→面包”的支持度为0.3，置信度为0.6，意味着（）。

A.30%的事务同时包含牛奶和面包，且其中60%的事务包含面包时也包含牛奶

B.60%的事务同时包含牛奶和面包，且其中30%的事务包含牛奶时也包含面包

C.30%的事务同时包含牛奶和面包，且其中60%的事务包含牛奶时也包含面包

D.60%的事务同时包含牛奶和面包，且其中30%的事务包含面包时也包含牛奶

答案：C

解析：支持度是同时包含两个项的事务比例（30%）；置信度是包含前件（牛奶）的事务中包含后件（面包）的比例（60%）。

9.以下关于过拟合的描述，错误的是（）。

A.模型在训练集上表现很好，在测试集上表现差

B.可以通过增加正则化项缓解

C.决策树深度过深容易导致过拟合

D.过拟合是由于模型复杂度不足

答案：D

解析：过拟合是模型过于复杂，过度拟合训练数据的噪声，导致泛化能力差；复杂度不足会导致欠拟合。

10.在文本挖掘中，TF-IDF用于衡量（）。

A.词语在文档中的重要性B.文档之间的相似性C.文本的情感倾向D.文本的主题分布

答案：A

解析：TF（词频）衡量词语在文档中的出现频率，IDF（逆文档频率）衡量词语在全局中的稀有性，TF-IDF综合两者反映词语对文档的区分度。

二、填空题（每空2分，共20分）

1.数据挖掘的主要步骤包括数据准备、__________、__________、模式评估和知识表示。

答案：数据预处理；数据挖掘建模

2.决策树的分裂准则除了信息增益，还包括__________（用于CART算法）和信息增益率（用于C4.5算法）。

答案：基尼指数

3.K-means算法的目标函数是最小化所有样本到其所属簇质心的__________之和。

答案：欧氏距离平方

4.关联规则的两个核心度量是支持度和__________。

答案：置信度

5.分类模型评估中，F1分数是__________和__________的调和平均数。

答案：精确率（Precision）