华南农业大学数据挖掘2023-2024学年期末试卷
院(系)_______班级_______学号_______姓名_______
题号
一
二
三
四
总分
得分
一、单选题(每题2分,共20分)
数据挖掘的核心任务不包括:
A.关联规则挖掘
B.数据清洗
C.分类与预测
D.聚类分析
以下哪种方法属于数据预处理技术:
A.决策树构建
B.特征标准化
C.支持向量机训练
D.神经网络优化
K-means算法属于:
A.分类算法
B.关联规则挖掘算法
C.聚类算法
D.回归算法
在分类模型评估中,准确率(Accuracy)的计算公式是:
A.TP/(TP+FP)
B.TP/(TP+FN)
C.(TP+TN)/(TP+TN+FP+FN)
D.FP/(FP+TN)
Apriori算法用于挖掘:
A.频繁项集
B.决策树节点
C.聚类中心
D.回归系数
主成分分析(PCA)属于:
A.特征选择
B.特征提取
C.数据清洗
D.数据集成
以下哪种算法对噪声和离群点最敏感:
A.DBSCAN
B.K-means
C.随机森林
D.朴素贝叶斯
信息增益(InformationGain)常用于:
A.决策树分裂属性选择
B.关联规则剪枝
C.聚类相似度计算
D.回归模型评估
在农业数据挖掘中,遥感图像分析属于:
A.结构化数据处理
B.非结构化数据处理
C.半结构化数据处理
D.时序数据处理
以下哪种技术不属于深度学习在数据挖掘中的应用:
A.卷积神经网络(CNN)
B.循环神经网络(RNN)
C.支持向量机(SVM)
D.生成对抗网络(GAN)
二、简答题(每题10分,共30分)
简述数据挖掘的主要步骤及其在农业领域的应用价值。
(要求:结合数据预处理、特征工程、模型构建等环节,分析其对精准农业的支持作用)
对比分类算法与聚类算法的异同,说明其在农业病虫害识别中的应用场景。
(要求:从数据标注需求、模型目标、结果解释性等方面展开)
解释过拟合与欠拟合的概念,说明如何通过交叉验证和正则化方法优化模型性能。
(要求:结合农业数据的小样本特性,分析常见解决方案)
三、计算题(共30分)
某作物病虫害分类模型的混淆矩阵如下:
实际患病样本中,正确预测为患病的有80例,错误预测为健康的有20例;
实际健康样本中,正确预测为健康的有150例,错误预测为患病的有50例。
计算该模型的准确率、召回率(Recall)和F1值。(10分)
使用K-means算法对某农田土壤养分数据进行聚类,初始聚类中心为:
簇1:(有机质=3.2,氮含量=120)
簇2:(有机质=2.1,氮含量=80)
给定样本点A(有机质=2.8,氮含量=100),计算其到两个簇中心的欧氏距离,并判断其归属。(10分)
某农业电商平台通过关联规则挖掘发现:购买“有机肥”的顾客中有60%同时购买“种子”,且该规则的支持度为15%。已知平台总订单数为10000笔,计算同时购买有机肥和种子的订单数。(10分)
四、案例分析题(共20分)
某农业合作社收集了近5年的气象、土壤和作物产量数据,希望通过数据挖掘技术优化施肥方案。结合数据挖掘流程,设计具体分析步骤并说明关键技术。(10分)
(要求:从数据预处理、特征选择、模型构建到结果解释,结合农业领域知识)
某农产品加工企业发现产品质量波动较大,计划引入数据挖掘技术进行质量预测。对比决策树与随机森林算法的优缺点,说明在该场景下的适用性。(10分)
(要求:结合算法复杂度、可解释性、抗噪声能力等因素)