基本信息
文件名称:2025年大学《信息与计算科学》专业题库——信息与计算科学的数据挖掘实验.docx
文件大小:42.48 KB
总页数:9 页
更新时间:2025-10-28
总字数:约6.2千字
文档摘要
2025年大学《信息与计算科学》专业题库——信息与计算科学的数据挖掘实验
考试时间:______分钟总分:______分姓名:______
一、
请简述数据挖掘的基本流程,并说明在数据预处理阶段,处理缺失值和异常值各自有哪些常见的方法及其优缺点。
二、
给定一个包含用户年龄(Age)、收入(Income)和购买意愿(Purchase)三个属性的数据集。现需使用K-Means算法对这些用户进行聚类分析。
1.请简述K-Means算法的基本原理。
2.在该问题中,如何确定最佳的聚类数目K?
3.假设通过某种方法确定最佳聚类数目为3,请描述你将如何选择初始聚类中心,并简要