Hadoop大数据处理技术
教学大纲
院(系/部):计算机科学与技术学院
教研室:网络工程
日期:2023.06
1
Hadoop大数据处理技术课程教学大纲
课程英文名称:HadoopBigDataProcessing课程编码:0615003032
总学分/总学时:3/48理论学时/实验学时:48/0
课程性质:专业拓展课先修课程:Java程序设计语言、数据库
系统原理
课程负责人:陈姝颖适用专业:网络工程
开课单位:计算机科学与技术学院大纲制定者:陈姝颖
大纲审定者:程大鹏大纲审定时间:2023.06
本大纲适用2023年版网络工程专业人才培养方案
一、课程简介
随着互联网、移动互联网和物联网的发展,人类社会产生的数据正呈爆炸式增长,我
们已经迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容
进行抓取、管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的需求。
Hadoop是目前应用最成功也是最广泛的批处理平台,国内外的企业和机构的数据处理系
统纷纷向Hadoop处理平台过渡和转型,Hadoop已经成为大数据处理的工业标准。本课程
的开设为高年级本科生搭建起通向大数据知识空间的桥梁,为今后继续从事大数据领域的
工作奠定基础。
通过本课程的学习,能够建立对大数据知识体系的轮廓性认识,了解大数据的基本概
念、发展历程、研究背景、应用领域、关键技术、处理模式和发展前景;能够了解Hadoop
的起源、重要特性和版本的衍化,熟练掌握Hadoop平台的安装和使用方法;掌握Hadoop
分布式文件系统HDFS的重要概念、特点、体系结构、存储原理和读写过程,并熟练掌握
HDFS的使用方法;能够熟练掌握MapReduce的基本原理和编程方法;能够了解HBase数
据库的特点、架构和原理,并熟练掌握HBase的使用方法;掌握Hive数据仓库的使用方
法,了解复杂类型及Hive函数。
二、课程目标与毕业要求关系
(一)课程目标
1.知识传授目标
1-1掌握Hadoop基础
深入了解Hadoop的起源、发展历史、重要特性和应用现状;
理解Hadoop项目结构及其各个组件的功能和相互关系;
2
掌握Hadoop平台的安装、配置和基本使用方法。
1-2理解大数据处理架构
掌握分布式文件系统HDFS的基本概念、体系结构、存储原理和读写过程;
熟悉分布式数据库HBase的访问接口、数据模型、实现原理和运行机制;
理解MapReduce编程模型的基本理论和应用场景。
1-3掌握Hadoop生态圈技术
了解并掌握Hadoop生态圈中常用组件的安装配置流程,如Hive、Spark等;
熟悉NoSQL数据库、云数据库等相关技术及其在大数据处理中的应用;
掌握ETL工具在数据采集与迁移中的使用方法。
2.能力培养目标
2-1提升技术能力
能够熟练完成基于Hadoop的全分布式集群安装与部署;
能够熟练使用HDFS进行文件存储和读取操作;
能够使用MapReduce完成数据清洗和分析任务。
2-2增强实践能力
能够应用Hive技术完成数据分析任务,并编写符合语法规范的Hive操作程序;
能够使用Spark技术进行离线数据分析,掌握Spark计算框架的基本原理和编程模式;
能够通过实践项目,如日志分析等,将所学知识应用于实际问题解决中。
2-3拓展创新思维
培养学生利用大数据技术进行创新思考的能力,鼓励探索新的数据处理方法和应用场
景;
引导学生关注大数据领域的前沿技术和趋势,激发对未来技术发