大数据与机器学习
目录
TOC\o1-3\h\z\u第1章数据与机器学习通识 7
1.1数据管理与人工智能关系 7
1.2数据存储与计算产品发展史 7
1.3数据管理各域发展全路径 8
1.4机器学习通识 9
1.4.1无监督学习算法 9
1.4.2有监督学习算法-分类/预测算法 10
1.5深度学习 13
1.6第三范式 13
1.6.1增强学习 34
第2章大数据基础概念 35
2.1大数据处理架构 35
第3章Hadoop三大核心组件概述 47
3.1Hadoop概念 47
3.2三大核心组件特性 47
3.3Hadoop外围生态组成 50
3.4组件之间数据流向(离线处理) 52
3.5组件之间数据流向(实时处理) 52
3.6Hadoop版本特性 52
3.7实时处理组件Spark与Flink 53
3.7.1两者区别 53
第4章HDFS介绍 53
4.1.1原理介绍 53
4.1.2架构介绍 54
第5章YARN介绍 59
5.1YARN背景 59
5.2YARN原理 60
5.2.1YARN组件 60
5.2.2HDFS与YARN架构关系 61
5.2.3YARN流程 61
第6章MapReduce介绍 62
6.1.1MR架构 62
6.1.2MR原理 63
6.1.3MR、YARN与HDFS节点关系 64
6.1.4网络shuffle原理 65
第7章Kafka原理介绍 65
7.1Kafka背景与作用 65
7.1.1Kafka产生背景-高吞吐、实时性、持久性 65
7.1.2Kafka产品目的 65
7.1.3Kafka两个消息模式-订阅与点对点 65
7.1.4Kafka应用场景-缓冲、异步 66
7.1.5Kafka工作原理 66
7.1.6Kafka总结 68
第8章Hive介绍 71
8.1.1HIVE产生背景 71
8.1.2组件生态架构 72
8.1.3HIVE架构 72
8.1.4部署架构-主备模式 73
8.1.5处理流程 74
第9章Spark介绍 75
9.1.1Spark产生背景 75
9.1.2Spark业务架构 77
9.1.3Spark部署 78
9.1.4Spark原理 79
9.1.5Spark-core的RDD 79
9.1.6产生背景 85
9.1.7Spark-streaming 86
9.1.8Spark-graphX图计算 88
第10章Flink介绍 95
10.1.1产生背景 95
10.1.2原理 96
第11章HBase介绍 97
11.1.1Hbase产生背景 97
11.1.2HIVE与HBase区分 97
11.1.3HBase架构原理 98
11.1.4HBase简介 98
11.1.5产生背景 98
11.1.6列族与元素 98
11.1.7物理模型 100
11.1.8ROOT表和META表 103
11.1.9寻址机制 103
第12章Clickhouse 104
12.1.1产生背景 104
12.1.2原理:列式存储 104
12.1.3ClickHouse官网解释 105
12.1.4ClickHouse概述 106
12.1.5ClickHouse使用场景 107
12.1.6ClickHouse的优点 107
12.1.7ClickHouse的缺点 108
第13章Impala 108
第14章Presto 109
14.1.1druid,impala,presto对比 111
第15章Flume 113
第16章Sqoop 113
第17章ZoomKeeper 113
第18章AVRO介绍 113
第19章R语言介绍 113
第20章Scala语言 113
第21章Python介绍 113
21.1Python命令行终端安装 113
21.2Jupiter安装 115
21.3运行jupy