基本信息
文件名称:【最新精选】《数据挖掘》试题与答案.docx
文件大小:29.43 KB
总页数:18 页
更新时间:2025-06-11
总字数:约6.81千字
文档摘要

【最新精选】《数据挖掘》试题与答案

一、单项选择题(每题2分,共20分)

1.以下哪项不是数据挖掘的主要任务?()

A.分类与预测B.关联规则挖掘C.数据清洗D.聚类分析

答案:C

解析:数据清洗属于数据预处理阶段的任务,数据挖掘的核心任务包括分类、回归、关联规则、聚类、异常检测等。

2.在决策树算法中,信息增益的计算基于()。

A.信息熵B.基尼系数C.均方误差D.余弦相似度

答案:A

解析:信息增益通过计算划分前后信息熵的减少量来衡量特征的重要性,公式为:信息增益=原熵-条件熵(给定特征后的熵)。

3.以下关于K-means聚类算法的描述,错误的是()。

A.需要预先指定聚类数k

B.对初始质心的选择敏感

C.适用于任意形状的簇

D.迭代更新质心直到收敛

答案:C

解析:K-means假设簇是凸形的、球形的,对非凸形状的簇(如环形、月牙形)效果较差,此时DBSCAN等基于密度的算法更合适。

4.Apriori算法的核心思想是()。

A.频繁项集的子集必频繁

B.非频繁项集的超集可能频繁

C.利用支持度和置信度同时筛选规则

D.通过随机森林提升挖掘效率

答案:A

解析:Apriori利用“先验性质”(如果一个项集是非频繁的,其所有超集也一定是非频繁的)来剪枝,减少候选项集的数量。

5.以下哪个指标用于评估分类模型的召回率?()

A.TP/(TP+FN)B.TP/(TP+FP)C.TN/(TN+FP)D.(TP+TN)/(TP+TN+FP+FN)

答案:A

解析:召回率(Recall)衡量模型正确识别正类的能力,公式为真正例(TP)占所有实际正例(TP+FN)的比例。

6.数据预处理中,处理缺失值的方法不包括()。

A.删除含缺失值的记录B.用属性均值填充C.用KNN算法预测填充D.直接忽略缺失值进行建模

答案:D

解析:直接忽略缺失值可能导致数据分布偏移或模型偏差,需通过删除、填充(均值/中位数)或预测(如KNN)等方法处理。

7.以下属于无监督学习的算法是()。

A.逻辑回归B.K-meansC.随机森林D.SVM(支持向量机)

答案:B

解析:无监督学习从无标签数据中发现模式,K-means聚类无需标签;其他选项均为有监督学习(需输入特征和标签)。

8.在关联规则中,规则“牛奶→面包”的支持度为0.3,置信度为0.6,意味着()。

A.30%的事务同时包含牛奶和面包,且其中60%的事务包含面包时也包含牛奶

B.60%的事务同时包含牛奶和面包,且其中30%的事务包含牛奶时也包含面包

C.30%的事务同时包含牛奶和面包,且其中60%的事务包含牛奶时也包含面包

D.60%的事务同时包含牛奶和面包,且其中30%的事务包含面包时也包含牛奶

答案:C

解析:支持度是同时包含两个项的事务比例(30%);置信度是包含前件(牛奶)的事务中包含后件(面包)的比例(60%)。

9.以下关于过拟合的描述,错误的是()。

A.模型在训练集上表现很好,在测试集上表现差

B.可以通过增加正则化项缓解

C.决策树深度过深容易导致过拟合

D.过拟合是由于模型复杂度不足

答案:D

解析:过拟合是模型过于复杂,过度拟合训练数据的噪声,导致泛化能力差;复杂度不足会导致欠拟合。

10.在文本挖掘中,TF-IDF用于衡量()。

A.词语在文档中的重要性B.文档之间的相似性C.文本的情感倾向D.文本的主题分布

答案:A

解析:TF(词频)衡量词语在文档中的出现频率,IDF(逆文档频率)衡量词语在全局中的稀有性,TF-IDF综合两者反映词语对文档的区分度。

二、填空题(每空2分,共20分)

1.数据挖掘的主要步骤包括数据准备、__________、__________、模式评估和知识表示。

答案:数据预处理;数据挖掘建模

2.决策树的分裂准则除了信息增益,还包括__________(用于CART算法)和信息增益率(用于C4.5算法)。

答案:基尼指数

3.K-means算法的目标函数是最小化所有样本到其所属簇质心的__________之和。

答案:欧氏距离平方

4.关联规则的两个核心度量是支持度和__________。

答案:置信度

5.分类模型评估中,F1分数是__________和__________的调和平均数。

答案:精确率(Precision)