大数据架构;大数据架构概述;企业中数据平台的基础架构
;工业大数据的基础架构
;使用大数据架构可以帮助企业节省资金并做出关键决策,其中主要包括以下几点:?
1)降低成本。在存储大量数据时,Hadoop和基于云计算的分析等大数据技术可以显著地降低成本。?
2)做出更快、更好的决策。使用大数据架构的流组件,企业可以实时做出决策。?
3)预测未来需求并创建新产品。大数据可以帮助企业衡量客户需求并使用分析预测未来趋势。?
;大数据架构分类
;传统大数据架构
;流式架构
;Lambda架构
;Kappa架构;Unifield架构;Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(Hadoopdistributedfilesystem,HDFS)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。;狭义上来说,Hadoop就是单独指代hadoop这个软件,广义上来说,Hadoop指代大数据的一个生态圈,包括很多其他的软件。;Hadoop特点;所谓集群,是一组通过网络互联的计算机,集群里的每一台计算机称为一个节点。;Hadoop发展史;Hadoop核心组件;HDFS
;YARN
;MapReduce
;HDFS概述;HDFS优缺点;HDFS构成;HDFS操作;执行“hadoopdfs”命令可以显示HDFS常用命令的使用信息:
[hadoop@masterbin]$hadoopdfs
Usage:javaFsShell
[-lspath]
[-lsrpath]
[-df[path]]
[-dupath]
[-duspath]
[-count[-q]path]
[-mvsrcdst]
[-cpsrcdst]
[-rm[-skipTrash]path]
[-rmr[-skipTrash]path]
[-expunge]
[-putlocalsrc…dst]
[-copyFromLocallocalsrc…dst]
[-moveFromLocallocalsrc…dst]
[-get[ignoreCrc][-crc]srclocaldst]
[-getmergesrclocaldst[addnl]]
[-catsrc]
[-textsrc]
[-copyToLocal[ignoreCrc][-crc]srclocaldst]
[-moveToLocal[-crc]srclocaldst]
[-mkdirpath]
[setrep[-r][-w]reppath/file]
[-touchzpath]
[-test–[ezd]path]
[-stat[format]path]
[-tail[-f]file]
[-chmod[-R]MODE[MODE]…|OCTALMODEPATH]
[-chown[-R][OWNER][GROUP]]PATH…]
[-chgrp][-R]GROUPPATH…]
[-help[cmd]]
;MapReduce概述;一个大数据若可以分为具有同样计算过程的数据块,并且这些数据块之间不存在数据依赖关系,则提高处理速度的最好办法就是并行计算。
;MapReduce是一种分布式计算模型,在处理海量数据上具有很明显的优势,因此常被用于大规模数据集的并行计算。;2004年,Google公司的Dean发表文章将MapReduce这一编程模型在分布式系统中的应用进行了介绍,从此MapReduce分布式编程模型进入了人们的视野。;MapReduce的编程框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成的。用户用map和reduce两个函数来表达计算。map函数的输入是一个key,value键值对,输出一个key,value键值对的集合的中间结果。
MapReduce集合所有相同key值的value,然后提供给reduce函数。reduce函数收到key值和对应的value的集合,通过计算得到较小的value值的集合。
;在Hadoop的体系结构中,MapReduce是一个简单、易用的软件框架。;计算单词的个数;MapReduce算法的机制要远比这复杂得多,但是主体思想是一致的