2025年大数据分析师职业技能测试卷:实时数据处理与流式计算实战试题
考试时间:______分钟总分:______分姓名:______
一、SQL基础与操作
要求:熟悉SQL语言的基本语法,掌握数据的插入、查询、更新和删除等操作。
1.创建一个名为“员工信息”的表,包含以下字段:
字段名|类型|描述
----|----|----
员工编号|INT|员工唯一标识
姓名|VARCHAR(50)|员工姓名
性别|CHAR(1)|员工性别,M为男性,F为女性
出生日期|DATE|员工出生日期
入职日期|DATE|员工入职日期
职位|VARCHAR(50)|员工职位
薪资|DECIMAL(10,2)|员工薪资
2.向“员工信息”表中插入以下数据:
员工编号|姓名|性别|出生日期|入职日期|职位|薪资
----|----|----|----|----|----|----
1|张三|M|1985-01-01|2010-05-10|销售经理|10000.00
2|李四|F|1987-07-20|2011-09-15|产品经理|9000.00
3|王五|M|1986-12-15|2012-02-05|技术经理|11000.00
4|赵六|F|1989-04-23|2013-07-20|设计师|8000.00
5|周七|M|1990-03-15|2014-10-25|测试工程师|7500.00
3.查询所有员工信息,并按照薪资降序排列。
4.更新员工信息表中“赵六”的薪资为9000.00。
5.删除员工信息表中“王五”的记录。
6.查询“员工信息”表中,出生日期在1980年之前的员工姓名。
7.查询“员工信息”表中,薪资大于9000.00的员工数量。
8.查询“员工信息”表中,职位包含“经理”的员工姓名和职位。
9.查询“员工信息”表中,入职日期在2011年之前的员工姓名。
10.查询“员工信息”表中,薪资介于7000.00和10000.00之间的员工姓名和薪资。
二、数据可视化与图表制作
要求:熟悉常见的数据可视化图表类型,掌握图表的制作与美化。
1.在Excel中,使用“员工信息”表数据制作以下图表:
(1)饼图:展示各职位人数占比。
(2)柱状图:展示各年龄段员工数量(年龄段按照年龄分组,例如:20-30岁、31-40岁等)。
(3)折线图:展示近五年的员工薪资增长情况。
2.使用Python中的matplotlib库,制作以下图表:
(1)散点图:展示员工入职年份与薪资的关系。
(2)直方图:展示员工性别分布情况。
3.在Tableau中,制作以下图表:
(1)树状图:展示各部门的员工职位结构。
(2)地理坐标系:展示全国各地区员工的薪资分布。
4.使用PowerBI,制作以下图表:
(1)仪表盘:展示公司各项业务指标。
(2)关系图:展示员工入职年份与薪资的关系。
5.使用ECharts库,制作以下图表:
(1)雷达图:展示各员工综合能力指标。
(2)词云:展示公司产品关键词分布。
6.使用Gephi,制作以下图表:
(1)力导向图:展示公司各部门之间的关系。
(2)层次结构图:展示公司组织架构。
7.在PPT中,使用以下图表展示“员工信息”表数据:
(1)柱状图:展示各部门员工数量。
(2)折线图:展示近五年公司营收增长情况。
(3)地图:展示公司各分支机构分布。
8.使用Python中的Seaborn库,制作以下图表:
(1)箱线图:展示各职位薪资分布情况。
(2)热力图:展示员工加班时长与薪资的关系。
9.在D3.js中,制作以下图表:
(1)弦图:展示员工入职年份与离职年份的关系。
(2)弧形饼图:展示各部门员工数量占比。
10.使用Java中的JFreeChart库,制作以下图表:
(1)折线图:展示近五年的公司营业额增长情况。
(2)饼图:展示各产品线收入占比。
四、数据清洗与预处理
要求:掌握数据清洗和预处理的基本方法,能够处理缺失值、异常值和重复数据等问题。
1.假设你有一份包含以下列的员工数据集:员工编号、姓名、性别、出生日期、职位、薪资。请说明如何处理以下情况:
a)员工编号列中存在重复值。
b)性别列中存在“U”这样的无效值。
c)出生日期列中存在格式不正确的日期。
d)薪资列中存在负数和缺失值。
2.你需要从一份包含以下列的销售数据集中提取有用的信息:销售订单号、客户ID、产品ID、销售日期、销售金额、退货标识。请