基本信息
文件名称:Hadoop数据架构管理.pdf
文件大小:10.31 MB
总页数:143 页
更新时间:2025-05-19
总字数:约5.58万字
文档摘要

大数据与机器学习

目录

第1章数据与机器学习通识7

1.1数据管理与人工智能关系7

1.2数据存储与计算产品发展史7

1.3数据管理各域发展全路径8

1.4机器学习通识9

1.4.1无监督学习算法9

1.4.2有监督学习算法-分类/预测算法10

1.5深度学习13

1.6第三范式14

1.6.1增强学习14

第2章大数据基础概念36

2.1大数据处理架构36

第3章Hadoop三大核心组件概述48

3.1Hadoop概念48

3.2三大核心组件特性48

3.3Hadoop外围生态组成51

3.4组件之间数据流向(离线处理)53

3.5组件之间数据流向(实时处理)53

3.6Hadoop版本特性53

3.7实时处理组件Spark与Flink54

3.7.1两者区别54

第4章HDFS介绍54

4.1.1原理介绍54

4.1.2架构介绍55

第5章YARN介绍60

5.1YARN背景60

5.2YARN原理61

5.2.1YARN组件61

5.2.2HDFS与YARN架构关系62

5.2.3YARN流程62

第6章MapReduce介绍63

6.1.1MR架构63

6.1.2MR原理64

6.1.3MR、YARN与HDFS节点关系65

6.1.4网络shuffle原理66

第7章Kafka原理介绍66

7.1Kafka背景与作用66

7.1.1Kafka产生背景-高吞吐、实时性、持久性66

7.1.2Kafka产品目的66

7.1.3Kafka两个消息模式-订阅与点对点66

7.1.4Kafka应用场景-缓冲、异步67

7.1.5Kafka工作原理67

7.1.6Kafka总结69

第8章Hive介绍72

8.1.1HIVE产生背景72

8.1.2组件生态架构73

8.1.3HIVE架构73

8.1.4部署架构-主备模式74

8.1.5处理流程75

第9章Spark介绍76

9.1.1Spark产生背景76

9.1.2Spark业务架构78

9.1.3Spark部署79

9.1.4Spark原理80

9.1.5Spark-core的RDD80

9.1.6产生背景86

9.1.7Spark-streaming87

9.1.8Spark-graphX图计算89

第10章Flink介绍96

10.1.1产生背景96

10.1.2原理97

第11章HBase介绍98

11.1.1Hbase产生背景98

11.1.2HIVE与HBase区分98

11.1.3HBase架构原理99