基本信息
文件名称:重庆城市科技学院2023-2024学年《大数据统计与分析》期末考试试卷.docx
文件大小:17.86 KB
总页数:3 页
更新时间:2025-06-16
总字数:约1.39千字
文档摘要

重庆城市科技学院2023-2024学年《大数据统计与分析》期末考试试卷

考试时间:120分钟总分:100分

一、单项选择题(每题2分,共20分)

以下哪种数据类型不属于大数据常见类型?()

A.结构化数据B.半结构化数据C.非结构化数据D.孤立数据

在大数据采集过程中,从网页中提取数据的常用技术是()

A.网络爬虫B.传感器采集C.数据库抽取D.日志收集

对于大数据集,以下哪种存储方式通常更适合海量数据的分布式存储?()

A.关系型数据库B.分布式文件系统(如HDFS)C.本地硬盘D.内存

数据清洗中,处理缺失值的方法不包括()

A.删除含有缺失值的记录B.用均值、中位数填充C.随机生成数据填充D.根据模型预测填充

以下哪种算法常用于大数据的聚类分析?()

A.K-Means算法B.决策树算法C.朴素贝叶斯算法D.线性回归算法

在大数据分析中,用于评估分类模型准确性的指标是()

A.均方误差(MSE)B.准确率(Accuracy)C.平均绝对误差(MAE)D.相关系数

以下关于Spark的描述,错误的是()

A.基于内存计算,速度快B.只支持Scala语言编程C.具有强大的分布式数据处理能力D.可与Hadoop生态系统集成

假设要对用户的行为数据进行实时分析,以下哪种技术更合适?()

A.HiveB.FlinkC.MapReduceD.Pig

数据可视化中,适合展示数据分布情况的图表是()

A.折线图B.柱状图C.箱线图D.饼图

在大数据隐私保护中,对敏感数据进行加密的目的是()

A.提高数据处理速度B.防止数据泄露C.便于数据存储D.简化数据分析过程

二、简答题(每题8分,共32分)

简述大数据的“4V”特征,并举例说明每个特征在实际中的体现。

说明数据预处理的主要步骤及每个步骤的作用。

比较批处理和流处理在大数据处理中的应用场景和特点。

简述如何利用大数据统计与分析技术优化电商企业的库存管理。

三、计算题(每题12分,共24分)

给定一组数据:10,12,15,18,20,22,25,28,30,35。

计算该组数据的均值、中位数和众数。

计算该组数据的方差和标准差。

某超市记录了100位顾客的购物金额(单位:元),数据服从正态分布N(100,202)。

求购物金额在80元到120元之间的顾客比例。

若该超市想针对购物金额较高的10%顾客进行促销活动,求促销活动的金额门槛。(已知标准正态分布表:P(Z1)=0.8413,P(Z1.28)=0.9)

四、综合分析题(共24分)

某互联网公司收集了用户的浏览行为数据,包括用户ID、浏览时间、浏览页面、停留时长等信息。

设计一个数据处理流程,从数据采集到数据分析,阐述如何利用大数据技术进行以下分析:(1)分析用户的浏览行为模式,如用户在一天中不同时段的浏览活跃度。(8分)(2)挖掘用户之间的相似性,找出具有相似浏览行为的用户群体。(8分)

假设在数据分析过程中发现部分数据存在噪声和异常值,说明如何检测和处理这些噪声和异常值,以提高数据分析的准确性。(8分)