大数据技术与应用（第2版）课件：大数据架构.pptx

基本信息

文件名称：大数据技术与应用（第2版）课件：大数据架构.pptx

文件大小：3.75 MB

总页数：42 页

更新时间：2025-06-07

总字数：约2.15千字

文档摘要

大数据架构;大数据架构概述;企业中数据平台的基础架构

;工业大数据的基础架构

;使用大数据架构可以帮助企业节省资金并做出关键决策，其中主要包括以下几点：?

1）降低成本。在存储大量数据时，Hadoop和基于云计算的分析等大数据技术可以显著地降低成本。?

2）做出更快、更好的决策。使用大数据架构的流组件，企业可以实时做出决策。?

3）预测未来需求并创建新产品。大数据可以帮助企业衡量客户需求并使用分析预测未来趋势。?

;大数据架构分类

;传统大数据架构

;流式架构

;Lambda架构

;Kappa架构;Unifield架构;Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（Hadoopdistributedfilesystem，HDFS）和MapReduce（GoogleMapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。;狭义上来说，Hadoop就是单独指代hadoop这个软件，广义上来说，Hadoop指代大数据的一个生态圈，包括很多其他的软件。;Hadoop特点;所谓集群，是一组通过网络互联的计算机，集群里的每一台计算机称为一个节点。;Hadoop发展史;Hadoop核心组件;HDFS

;YARN

;MapReduce

;HDFS概述;HDFS优缺点;HDFS构成;HDFS操作;执行“hadoopdfs”命令可以显示HDFS常用命令的使用信息:

[hadoop@masterbin]$hadoopdfs

Usage:javaFsShell

[-lspath]

[-lsrpath]

[-df[path]]

[-dupath]

[-duspath]

[-count[-q]path]

[-mvsrcdst]

[-cpsrcdst]

[-rm[-skipTrash]path]

[-rmr[-skipTrash]path]

[-expunge]

[-putlocalsrc…dst]

[-copyFromLocallocalsrc…dst]

[-moveFromLocallocalsrc…dst]

[-get[ignoreCrc][-crc]srclocaldst]

[-getmergesrclocaldst[addnl]]

[-catsrc]

[-textsrc]

[-copyToLocal[ignoreCrc][-crc]srclocaldst]

[-moveToLocal[-crc]srclocaldst]

[-mkdirpath]

[setrep[-r][-w]reppath/file]

[-touchzpath]

[-test–[ezd]path]

[-stat[format]path]

[-tail[-f]file]

[-chmod[-R]MODE[MODE]…|OCTALMODEPATH]

[-chown[-R][OWNER][GROUP]]PATH…]

[-chgrp][-R]GROUPPATH…]

[-help[cmd]]

;MapReduce概述;一个大数据若可以分为具有同样计算过程的数据块，并且这些数据块之间不存在数据依赖关系，则提高处理速度的最好办法就是并行计算。

;MapReduce是一种分布式计算模型，在处理海量数据上具有很明显的优势，因此常被用于大规模数据集的并行计算。;2004年，Google公司的Dean发表文章将MapReduce这一编程模型在分布式系统中的应用进行了介绍，从此MapReduce分布式编程模型进入了人们的视野。;MapReduce的编程框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成的。用户用map和reduce两个函数来表达计算。map函数的输入是一个key,value键值对，输出一个key,value键值对的集合的中间结果。

MapReduce集合所有相同key值的value，然后提供给reduce函数。reduce函数收到key值和对应的value的集合，通过计算得到较小的value值的集合。

;在Hadoop的体系结构中，MapReduce是一个简单、易用的软件框架。;计算单词的个数;MapReduce算法的机制要远比这复杂得多，但是主体思想是一致的