基本信息
文件名称:大数据技术与应用(第2版)课件:大数据存储.pptx
文件大小:5.52 MB
总页数:96 页
更新时间:2025-06-07
总字数:约5.15千字
文档摘要

大数据存储;大数据存储概述;传统数据的获取大多是人工的,或者是简单的键盘输入。如超市每天的营业额以及营业数据等,多数是以电子表格的方式录入并存储到计算机中,存储容量较小。

;在大数据时代,数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。;传统数据要么以线下传统文件的方式,要么以邮件或是第三方软件进行传输,而随着API接口的成熟和普及,API接口也随着时代的发展逐渐标准化、统一化。;大数据存储的数据类型与传统存储的数据类型差异较大。传统数据更注重于对象的描述,而大数据更倾向与对数据过程的记录。;大数据的存储中不仅存储数据的容量较大,更重要的是人们可以从存储的数据间找到相互的关系,从而能够对数据进行比对和分析,最终产生商业价值。;大数据存储的类型主要有以下三种:块存储、文件存储和对象存储。

;(2)文件存储;(3)对象存储

;大数据存储的方式;分布式存储

分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其分而治之的策略能够更好的处理大规模数据分析问题。;(1)分布式文件系统

分布式文件系统HDFS是一个高度容错性系统,被设计成适用于批量处理,能够提供高吞吐量的的数据访问。

;(2)分布式键值系统

分布式键值系统用于存储关系简单的半结构化数据。典型的分布式键值系统有AmazonDynamo,以及获得广泛应用和关注的对象存储技术(ObjectStorage)也可以视为键值系统,其存储和管理的是对象而不是数据块。

淘宝也自主开发的一个分布式键值存储引擎Tair。

;NoSQL数据库

;NoSQL数据库又叫作非关系数据库,它是英文“NotOnlySQL”的简写,即“不仅仅是SQL”。NoSQL一词最早出现于1998年,是CarloStrozzi开发的一个轻量、开源、不提供SQL功能的关系数据库。

;NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。

;目前NoSQL数据库在以下的这几种情况下比较适用:

(1)数据模型比较简单;

???2)需要灵活性更强的IT系统;

(3)对数据库性能要求较高;

(4)不需要高度的数据一致性;

(5)对于给定Key,比较容易映射复杂值的环境。

;NoSQL数据库的理论基础

;CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、Availability(可用性)、Partitiontolerance(分区容错性),三者不可得兼。

;BASE是BasicallyAvailable(基本可用)、Softstate(软状态)和Eventuallyconsistent(最终一致性)三个短语的简写。BASE是对CAP中一致性和可用性权衡的结果。

;最终一致性:服务器一致性是指更新如何复制分布到整个系统,以保证数据的最终一致。而客户端一致性是指在高并发的数据访问操作下,后续操作是否可以获取最新的数据。

;易于数据的分散

提升性能和增大规模

;NoSQL在处理大量数据方面很有优势。但实际上NoSQL数据库还有各种各样的特点,如果能够恰当地利用这些特点,它就会非常有用。

;NoSQL数据库的分类

(1)列式数据库

列式存储是相对于传统关系型数据库的行式存储来说的,简单来说两者的区别就是如何组织表。一般来讲,将表放入存储系统中有两种方法:行存储和列存储。

;行存储法是将各行放入连续的物理位置,这很像传统的记录和文件系统。列存储法是将数据按照列存储到数据库中,与行存储类似。

;在实际应用中,传统的关系型数据库,如Oracle、DB2、MySQL、SQLSERVER等采用行式存储法,而新兴的Hbase、HPVertica、EMCGreenplum等分布式数据库采用列式存储。

;列式数据库的优点主要有:极高的装载速度、适合大量的数据而不是小数据、高效的压缩率以及适合做聚合操作等。

列式数据库的缺点主要有:不适合扫描小量数据、不适合随机的更新以及不适合做含有删除和更新的实时操作等。

;列式数据库由于其针对不同列的数据特征而发明的不同算法使其往往有比行式数据库高的多的压缩率,普通的行式数据库一般