Hadoop大数据项目开发——HBase概述
目录content02MapReduce优化方法01MapReduce运行效率瓶颈
HBase简介HBase是一个面向列、高性能、高可靠、可伸缩的分布式存储系统。可在廉价计算机上搭建起大规模的结构化存储集群。HBase是以HDFS为文件存储系统。以MapReduce为海量数据处理框架,以ZooKeeper为协同服务工具。
HBase简介HBase是一个非关系型数据库。非常适合于非结构化数据存储的数据库。数据以列族形式存储,HBase基于列的而不是基于行的模式。HBase支持在海量数据上随机、实时读写数据。
HBase特点它弥补了Hadoop不能进行实时数据处理的缺陷。它采用了稀疏矩阵的存储方式。它可以通过增加节点的方式进行线性扩展。
HBase的特点它弥补了Hadoop不能进行实时数据处理的缺陷。它采用了稀疏矩阵的存储方式。它可以通过增加节点的方式进行线性扩展。
HBase与传统数据库的区别HBase的数据存储类型单一。HBase仅具有简单的操作。HBase的更新操作实际上是插入了新的数据且仍保留旧的数据。HBase的查询只能通过行键进行,表的设计难度较大。
HBase与Hive的区别Hive支持SQL查询,而HBase不支持SQL。Hive不支持行级别的更新,而HBase支持数据的增、刷、改、查。Hive本身不存储数据,而HBase可以联机实时处理数据,是一种分布式数据库。
HBase逻辑视图HBase中的表一般由行键(rowkey)、时间戳(timestamp)、列族(columnfamily)、列(column)组成。在使用表之前,需要先定义列族,而行、列和时间戳可动态扩展。行键:行键以字节数组来存储,没有特定的数据类型,可以是任意字符串,但最大长度为64KB。它是用于检索的主键。列族:在定义表结构时,必须预先定义列族,并且不可以随意修改。列:列在定义表时不需要定义,因为它不是元数据的一部分,只需在插入数据时再指定。时间戳:通过行键和列可以确定一个存储单元。每个存储单元中可能保存着一个数据的多个版本,它们通过时间戳索引。
HBase逻辑视图
HBase存储原理HBase由1个或者多个HMaster和多个RegionServer组成的集群。其中HMaster和RegionServer的状态存储在ZooKeeper上,HBase的数据存储在HFile的文件上。
HRegion内部架构图
本章小结本节介绍了HBase、HBase逻辑视图和HBase的实现原理,相信大家掌握了HBase的相关概念,对非关系型数据库有了认识,为我们后续学习HBase相关操作打下了理论基础。
Hadoop大数据项目开发——HBase安装
目录content0201Hadoop集群部署方式Hadoop集群搭建
HBase安装步骤Xshell中的文件传输拖到文件传输窗口查看Zookeeper安装包步骤1:
HBase安装步骤解压Zookeeper安装包命令Zookeeper系统环境变量步骤2:步骤3:重命名命令步骤4:编辑profile文件步骤5:使profile文件生效
HBase安装步骤步骤6:修改hbase-env.sh文件
HBase安装步骤步骤7:修改hbase-site.xml文件步骤8:修改regionservers文件
HBase安装步骤拷贝Zookeeper到slave1和slave2两个节点拷贝profile文件到slave1和slave2两个节点步骤9:步骤10:使profile文件生效
HBase安装步骤启动HBase
HBase安装步骤HBase节点
HBase安装步骤HBase对应的Web界面
本章小结本节介绍了HBase的安装、配置HBase的配置文件以及HBase的启动,相信大家掌握了HBase的安装及启动,为我们后续学习HBaseShell命令操作和HBaseJavaAPI操作打下了基础。
Hadoop大数据项目开发——HBaseShell命令操作
目录content0201基本Shell命令命名空间操作03表操作
基本Shell命令启动HBaseShell
基本Shell命令查看HBase的运行状态查看表信息查看HBase的版本信息获取HBaseShell帮助退出HBaseShell
表操作创建命名空间查看命名空间查看某个具体的命名空间删除命名空间命名空间是对表的逻辑分组,类似于关系型数据库中数据库HBase中有两个默认的命名空间,分别是:default:默认情况下,创建表时表都将创建在default名称空间下hbase:用于存放系统的内建表,如namespace、meta等
表操作-创建表查看表结构创建表,不指定参数创建表,指定参数在命