基本信息
文件名称:2025春上学期西安电子科技大学《大数据导论》期末在线考核.docx
文件大小:26.26 KB
总页数:7 页
更新时间:2025-05-16
总字数:约1.68千字
文档摘要

大数据导论试卷(考试时长:100分钟)

A01、判断题(每小题2分,共20分)

1.

基于拉的方法是数据由源或第三方推向数据汇聚点。

2.

等频是将连续型变量的取值范围均匀划成n等份,每份的间距相等。

3.

如果在一个关系中存在唯一标识一个元组的属性集合(可以是单一属性构成的集合),则称该属性集合为这个关系的主键或主码。

4.

与均值相比,中位数有着更好的抗扰性。

5.

大数据具有“4V”特征,即规模庞大、种类繁多、变化频繁和价值巨大但价值密度低。

6.

1PB=1024GB。

7.

经过Z-score标准化处理后的数据符合标准正态分布。

8.

模型在验证集上的正确率或者其他参数定义的表现好坏,将决定模型的实际应用价值。

9.

神经网络架构搜索过程是一个优化问题,旨在寻找一个或多个神经架构来获得最佳性能。

10.

结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。

A02、单选题(每小题2分,共20分)

1.

关于词袋模型的描述错误的是(??????)。

最简单的词向量表示方法

使用一组无序的单词来表达一段文字或一个文档

忽略掉文本的语法和语序等要素

文档中每个单词的出现都是关联的

2.

独立级联模型和线性阈值模型的区别是(??????)。

最开始给定一个随机的阈值

停止条件为不再有新的结点被激活

模拟影响在社会网络中的传播过程

不再通过结点?v?的所有已激活邻居的权重和达到阈值来激活

3.

下述关于HDFS描述正确的是(??????)。

适合小文件存储和处理

集群规模无法动态扩展

用于数据的存储、管理和出错处理

跨平台移植性一般

4.

网络爬虫是网站应用主要的数据采集方式,下面哪一项不属于数据采集策略?

选择策略

重访策略

礼貌策略

串行策略

5.

模式匹配是(??????)的过程。

标识两个数据对象是语义相关

数据在两个不同的数据模型之间进行转换

发现隐藏的敏感数据

使用语义信息来帮助将一个数据模型中的数据转换为另一个表示或数据模型

6.

下述所表示的数据操作是(??????)。

学号

姓名

性别

年龄

图书证号

所在系

课程号

成绩

S3001

张明

22

外语

C1

90

S3001

张明

22

外语

C2

95

S3002

李静

21

外语

C1

84

S4001

赵丽

21

管理

C3

50

学号

姓名

所在系

课程号

成绩

S3001

张明

外语

C1

90

S3001

张明

外语

C2

95

S3002

李静

外语

C1

84

S4001

赵丽

管理

C3

50

投影

连接

选择

7.

关系数据模型中通过实体完整性、参照完整性和自定义完整性来确保数据的(??????)。

完整

完整一致

准确

一致

8.

数据库是按照(??????)来组织、存储和管理数据的,是建立在计算机存储设备上的仓库。

数据大小

数据名称

数据特点

数据结构

9.

智慧城市首次由IBM在(??????)年提出,其目的是为了解决城市扩张带来的诸多问题。

2005

2008

2010

2012

10.

(??????)用于进行身份鉴别,证明用户身份,即“你是谁”。

PMI

PKI

SOA

RM

A03、简答题(每小题10分,共60分)

查看上传图片

1.

a)请介绍四种常用的数据采集方法。

b)?请给出网络爬虫的流程示意图。

2.

请介绍一下协同过滤推荐算法的原理和分类。

3.

请给出k-均值算法的具体步骤,并对其进行性能分析。

4.

请利用平行坐标对A=(1,2,-2,1,-3),B=(2,3,-1,1,-2),C=(-4,-5,5,2,)进行可视化,并给出平行坐标的设计挑战。

5.

a)?希望同时提供消息的机密性以及鉴别性,如何实现,请给出模型示意图。

b)?举例说明智能手机可能出现的个人隐私泄漏。

6.

请描述一下DIKW金字塔,并给出数据集成的分类方式。