【最新精选】《数据挖掘》试题与答案
一、单项选择题(每题2分,共20分)
1.以下哪项不是数据挖掘的主要任务?()
A.分类与预测B.关联规则挖掘C.数据清洗D.聚类分析
答案:C
解析:数据清洗属于数据预处理阶段的任务,数据挖掘的核心任务包括分类、回归、关联规则、聚类、异常检测等。
2.在决策树算法中,信息增益的计算基于()。
A.信息熵B.基尼系数C.均方误差D.余弦相似度
答案:A
解析:信息增益通过计算划分前后信息熵的减少量来衡量特征的重要性,公式为:信息增益=原熵-条件熵(给定特征后的熵)。
3.以下关于K-means聚类算法的描述,错误的是()。
A.需要预先指定聚类数k
B.对初始质心的选择敏感
C.适用于任意形状的簇
D.迭代更新质心直到收敛
答案:C
解析:K-means假设簇是凸形的、球形的,对非凸形状的簇(如环形、月牙形)效果较差,此时DBSCAN等基于密度的算法更合适。
4.Apriori算法的核心思想是()。
A.频繁项集的子集必频繁
B.非频繁项集的超集可能频繁
C.利用支持度和置信度同时筛选规则
D.通过随机森林提升挖掘效率
答案:A
解析:Apriori利用“先验性质”(如果一个项集是非频繁的,其所有超集也一定是非频繁的)来剪枝,减少候选项集的数量。
5.以下哪个指标用于评估分类模型的召回率?()
A.TP/(TP+FN)B.TP/(TP+FP)C.TN/(TN+FP)D.(TP+TN)/(TP+TN+FP+FN)
答案:A
解析:召回率(Recall)衡量模型正确识别正类的能力,公式为真正例(TP)占所有实际正例(TP+FN)的比例。
6.数据预处理中,处理缺失值的方法不包括()。
A.删除含缺失值的记录B.用属性均值填充C.用KNN算法预测填充D.直接忽略缺失值进行建模
答案:D
解析:直接忽略缺失值可能导致数据分布偏移或模型偏差,需通过删除、填充(均值/中位数)或预测(如KNN)等方法处理。
7.以下属于无监督学习的算法是()。
A.逻辑回归B.K-meansC.随机森林D.SVM(支持向量机)
答案:B
解析:无监督学习从无标签数据中发现模式,K-means聚类无需标签;其他选项均为有监督学习(需输入特征和标签)。
8.在关联规则中,规则“牛奶→面包”的支持度为0.3,置信度为0.6,意味着()。
A.30%的事务同时包含牛奶和面包,且其中60%的事务包含面包时也包含牛奶
B.60%的事务同时包含牛奶和面包,且其中30%的事务包含牛奶时也包含面包
C.30%的事务同时包含牛奶和面包,且其中60%的事务包含牛奶时也包含面包
D.60%的事务同时包含牛奶和面包,且其中30%的事务包含面包时也包含牛奶
答案:C
解析:支持度是同时包含两个项的事务比例(30%);置信度是包含前件(牛奶)的事务中包含后件(面包)的比例(60%)。
9.以下关于过拟合的描述,错误的是()。
A.模型在训练集上表现很好,在测试集上表现差
B.可以通过增加正则化项缓解
C.决策树深度过深容易导致过拟合
D.过拟合是由于模型复杂度不足
答案:D
解析:过拟合是模型过于复杂,过度拟合训练数据的噪声,导致泛化能力差;复杂度不足会导致欠拟合。
10.在文本挖掘中,TF-IDF用于衡量()。
A.词语在文档中的重要性B.文档之间的相似性C.文本的情感倾向D.文本的主题分布
答案:A
解析:TF(词频)衡量词语在文档中的出现频率,IDF(逆文档频率)衡量词语在全局中的稀有性,TF-IDF综合两者反映词语对文档的区分度。
二、填空题(每空2分,共20分)
1.数据挖掘的主要步骤包括数据准备、__________、__________、模式评估和知识表示。
答案:数据预处理;数据挖掘建模
2.决策树的分裂准则除了信息增益,还包括__________(用于CART算法)和信息增益率(用于C4.5算法)。
答案:基尼指数
3.K-means算法的目标函数是最小化所有样本到其所属簇质心的__________之和。
答案:欧氏距离平方
4.关联规则的两个核心度量是支持度和__________。
答案:置信度
5.分类模型评估中,F1分数是__________和__________的调和平均数。
答案:精确率(Precision)