20大数据试题及答案
单项选择题(每题2分,共10题)
1.以下哪种数据存储方式适合存储海量结构化数据?
A.文本文件B.关系型数据库C.键值存储D.图数据库
答案:B
2.Hadoop框架中负责资源管理的组件是?
A.NameNodeB.DataNodeC.YARND.MapReduce
答案:C
3.Spark中RDD的含义是?
A.弹性分布式数据集B.可靠分布式数据集C.实时分布式数据集D.高效分布式数据集
答案:A
4.以下哪个工具常用于数据清洗?
A.HiveB.PigC.FlumeD.Sqoop
答案:B
5.大数据的4V特征不包括以下哪一项?
A.Volume(大量)B.Variety(多样)C.Value(价值)D.Valid(有效)
答案:D
6.数据挖掘中的聚类分析是属于?
A.监督学习B.无监督学习C.半监督学习D.强化学习
答案:B
7.以下哪种语言在大数据处理中使用较为广泛?
A.C++B.JavaC.PythonD.Fortran
答案:C
8.Hive中用于定义表结构的语句是?
A.CREATETABLEB.DEFINETABLEC.SETTABLED.MAKETABLE
答案:A
9.Kafka主要用于解决什么问题?
A.数据存储B.数据计算C.消息队列D.数据可视化
答案:C
10.以下哪个算法常用于分类任务?
A.K-MeansB.DBSCANC.SVMD.Apriori
答案:C
多项选择题(每题2分,共10题)
1.以下属于大数据存储技术的有()
A.HBaseB.CassandraC.MongoDBD.Redis
答案:ABCD
2.以下关于MapReduce说法正确的是()
A.分为Map和Reduce两个阶段
B.适合处理大规模数据
C.是Hadoop的核心计算框架
D.不具备容错性
答案:ABC
3.数据清洗的主要工作包括()
A.去除重复数据B.处理缺失值C.数据标准化D.数据加密
答案:ABC
4.以下哪些是Spark的组件()
A.SparkSQLB.SparkStreamingC.MLlibD.GraphX
答案:ABCD
5.大数据分析的流程一般包括()
A.数据采集B.数据存储C.数据分析D.数据可视化
答案:ABCD
6.以下属于NoSQL数据库的类型有()
A.键值数据库B.文档数据库C.列族数据库D.图数据库
答案:ABCD
7.以下哪些工具可以用于数据采集()
A.FlumeB.KafkaC.SqoopD.Hive
答案:ABC
8.机器学习中监督学习的常见算法有()
A.决策树B.线性回归C.逻辑回归D.主成分分析
答案:ABC
9.以下关于Hadoop说法正确的是()
A.是一个分布式计算平台
B.具有高可靠性和高扩展性
C.由多个组件构成
D.只适用于结构化数据处理
答案:ABC
10.数据可视化工具常见的有()
A.TableauB.PowerBIC.EchartsD.Matplotlib
答案:ABCD
判断题(每题2分,共10题)
1.大数据就是指数据量非常大的数据。(×)
2.Hadoop集群中NameNode负责存储数据。(×)
3.Spark比MapReduce计算速度更快。(√)
4.数据挖掘只能处理结构化数据。(×)
5.Kafka可以实现高吞吐量的消息传递。(√)
6.无监督学习不需要标记数据。(√)
7.Hive是基于Hadoop的数据仓库工具。(√)
8.所有的大数据分析都需要使用机器学习算法。(×)
9.关系型数据库适合存储非结构化数据。(×)
10.数据可视化可以帮助人们更好地理解数据。(√)
简答题(每题5分,共4题)
1.简述大数据的4V特征。
答案:Volume(大量),数据量巨大;Variety(多样),数据类型多样,包括结构化、半结构化和非结构化;Velocity(高速),数据产生和处理速度快;Value(价值),数据价值密度低但潜在价值大。
2.简述MapReduce的工作原理。
答案:MapReduce分为Map和R