基本信息
文件名称:2025年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案.docx
文件大小:88.41 KB
总页数:20 页
更新时间:2025-05-19
总字数:约9.55千字
文档摘要

(图片大小可自由调整)

2025年商业经济行业技能考试-数据挖掘工程师考试近5年真题集锦(频考类试题)带答案

第I卷

一.参考题库(共80题)

1.()都属于簇有效性的监督度量。

A、轮廓系数

B、共性分类相关系数

C、熵

D、F度量

2.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()

A、频繁模式挖掘

B、分类和预测

C、数据预处理

D、数据流挖掘

3.简述维度归约和特征变换。

4.常见的聚类算法可以分为几类?

5.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

6.简述数据仓库的组成。

7.以下哪种方法不属于特征选择的标准方法:()。

A、嵌入

B、过滤

C、包装

D、抽样

8.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。

9.贝叶斯信念网络(BBN)有如下哪些特点,()。

A、构造网络费时费力

B、对模型的过分问题非常鲁棒

C、贝叶斯网络不适合处理不完整的数据

D、网络结构确定后,添加变量相当麻烦

10.简述数据的定义及类型。

11.离散属性总是具有有限个值。

12.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。

13.什么是关联规则?关联规则的应用有哪些?

14.维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用()

15.考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是:()。

A、31

B、24

C、55

D、3

16.何谓文本挖掘?它与信息检索有什么关系(异同)。

17.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。

A、平方欧几里德距离

B、余弦距离

C、直接相似度

D、共享最近邻

18.在聚类分析当中,()等技术可以处理任意形状的簇。

A、MIN(单链)

B、MAX(全链)

C、组平均

D、Chameleon

19.数据挖掘定义是什么?

20.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:()、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

21.下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是()。

A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇

B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇

C、JP聚类是基于SNN相似度的概念

D、JP聚类的基本时间复杂度为O(m)

22.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

23.下面属于数据集的一般特性的有:()。

A、连续性

B、维度

C、稀疏性

D、分辨率

E、相异性

24.什么是基于像素的可视化技术?它有什么缺点?

25.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

26.分类方法的常用评估度量都有哪些?

27.大型数据库中的关联规则挖掘包含两个过程()和()

28.使用星型模式可以从一定程度上()查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。

29.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()。

A、18.3

B、22.6

C、26.8

D、27.9

30.下面的散点图显示哪种属性相关性?()

A、不相关;

B、正相关;

C、负相关;

D、先正相关然