大数据与机器学习第四章.docx - 创享文库

基本信息

文件名称：大数据与机器学习第四章.docx

文件大小：933.95 KB

总页数：12 页

更新时间：2025-05-22

总字数：约9.65千字

文档摘要

大数据与机器学习

目录

TOC\o1-3\h\z\u第1章数据与机器学习通识 7

1.1数据管理与人工智能关系 7

1.2数据存储与计算产品发展史 7

1.3数据管理各域发展全路径 8

1.4机器学习通识 9

1.4.1无监督学习算法 9

1.4.2有监督学习算法-分类/预测算法 10

1.5深度学习 13

1.6第三范式 13

1.6.1增强学习 34

第2章大数据基础概念 35

2.1大数据处理架构 35

第3章Hadoop三大核心组件概述 47

3.1Hadoop概念 47

3.2三大核心组件特性 47

3.3Hadoop外围生态组成 50

3.4组件之间数据流向（离线处理） 52

3.5组件之间数据流向（实时处理） 52

3.6Hadoop版本特性 52

3.7实时处理组件Spark与Flink 53

3.7.1两者区别 53

第4章HDFS介绍 53

4.1.1原理介绍 53

4.1.2架构介绍 54

第5章YARN介绍 59

5.1YARN背景 59

5.2YARN原理 60

5.2.1YARN组件 60

5.2.2HDFS与YARN架构关系 61

5.2.3YARN流程 61

第6章MapReduce介绍 62

6.1.1MR架构 62

6.1.2MR原理 63

6.1.3MR、YARN与HDFS节点关系 64

6.1.4网络shuffle原理 65

第7章Kafka原理介绍 65

7.1Kafka背景与作用 65

7.1.1Kafka产生背景-高吞吐、实时性、持久性 65

7.1.2Kafka产品目的 65

7.1.3Kafka两个消息模式-订阅与点对点 65

7.1.4Kafka应用场景-缓冲、异步 66

7.1.5Kafka工作原理 66

7.1.6Kafka总结 68

第8章Hive介绍 71

8.1.1HIVE产生背景 71

8.1.2组件生态架构 72

8.1.3HIVE架构 72

8.1.4部署架构-主备模式 73

8.1.5处理流程 74

第9章Spark介绍 75

9.1.1Spark产生背景 75

9.1.2Spark业务架构 77

9.1.3Spark部署 78

9.1.4Spark原理 79

9.1.5Spark-core的RDD 79

9.1.6产生背景 85

9.1.7Spark-streaming 86

9.1.8Spark-graphX图计算 88

第10章Flink介绍 95

10.1.1产生背景 95

10.1.2原理 96

第11章HBase介绍 97

11.1.1Hbase产生背景 97

11.1.2HIVE与HBase区分 97

11.1.3HBase架构原理 98

11.1.4HBase简介 98

11.1.5产生背景 98

11.1.6列族与元素 98

11.1.7物理模型 100

11.1.8ROOT表和META表 103

11.1.9寻址机制 103

第12章Clickhouse 104

12.1.1产生背景 104

12.1.2原理:列式存储 104

12.1.3ClickHouse官网解释 105

12.1.4ClickHouse概述 106

12.1.5ClickHouse使用场景 107

12.1.6ClickHouse的优点 107

12.1.7ClickHouse的缺点 108

第13章Impala 108

第14章Presto 109

14.1.1druid，impala，presto对比 111

第15章Flume 113

第16章Sqoop 113

第17章ZoomKeeper 113

第18章AVRO介绍 113

第19章R语言介绍 113

第20章Scala语言 113

第21章Python介绍 113

21.1Python命令行终端安装 113

21.2Jupiter安装 115

21.3运行jupy