大数据介绍;大数据概述;“大数据”一词在1980年未来学家阿尔文·托夫勒著的《第三次浪潮》书中将“大数据”称为“第三次浪潮的华彩乐章”。;从2009-2010年“大数据”成为互联网技术行业中的热门词汇。;2014年“大数据”首次出现在我国国内的《政府工作报告》中。;大数据的影响
;数据
;简单来说,数据就是为了某种目的而收集和转换的任意字符集。数据既包括文本、数字,也包含图像、语音和视频等。将数据记录下来,可以帮助我们更好地分析、整理和提取数据中蕴含的知识以及规律。数据在计算机系统中是以二进制的形式来存储的,用0或1来表示。
;结构化数据
存储在计算机的数据又分成两类。第一类称为结构化数据,是指在系统中定义好数据的结构,再严格地按照定义好的结构来存储、计算和管理数据。?
最常见的结构化数据就是关系型数据库中的二维表,其中每一行称为一个记录,每一列称作一个字段。比如在表中我们记录的是每一年每个国家二氧化碳的总排放量和人均排放量,那么在表中先定义了4个字段,年份、人均二氧化碳排放量、国家和总二氧化碳排放量。
;非结构化数据
另一类称为非结构化数据,是指数据结构不规则或不完整,甚至没有预定义的数据模型。非结构化数据是大量存在的,比如文本、图像、视频和语音等。这些数据对我们的生活是非常重要的。在很多的行业领域里,80%的业务相关的信息都是来自于非结构化数据,特别是文本数据。在图中展示了从2009年到2017年数据的增长情况,可以看出非结构化数据增长得非常迅速。?
;非结构化数据的第一类——文本数据,是最常见的也是最多的。我们展示了两个文本数据,第一个是新闻数据,标题是“解码澳门经济快速发展的‘隐形翅膀’”,它的来源是新华社的一篇新闻。这样一个有标题、有正文的新闻是一个典型的文本数据。?
;文本数据比结构化数据要占用更多的内存,比如“hello!”这样一个简单的单词,计算机用二进制表示出来,会看到一长串数字。那么可想而知,大量的文本将占用更多的存储空间,表示起来也更加复杂。
;图像是另一种非结构化数据。一张标有数字8的图像,大家看到它可能会想到马路上各种各样的广告牌和数字显示LED屏。这个图像是由很多小方格组成的,小方格被称为像素点。
;数字8的图像中,横排有16个像素点,竖排有22个像素点,一共由16×22个像素点组成。图像是黑白的灰度图,为了表现黑白的深浅不同,我们在每一个像素点上标有不同的数值,大家可以发现最小的是0,最大的是255,也就是说用256个等级来区分颜色的深浅度,这样我们就得到了一个矩阵。事实上在计算机中也是用数字矩阵的形式存储图像的。
;语音是第三种非结构化数据形式。例如人说话的声音、唱歌,都是由于空气震动而产生的声波。除了空气以外,在固体和液体中声音也是可以传播的。
;第四类非结构化数据是视频,它是由一系列的静态影像与声音组合而成的。视频按照一定的刷新频率进行刷新和播放,利用了人眼的视觉暂留原理,当播放的速率超过每秒24帧以上时,可以给人一种平滑连续变化的动态视觉效果。;在我们的日常生活中数据随处可见。数据是为了某种目的而收集和整理的任意字符集。在计算机中数据最终使用0和1来表示。数据可以分类结构化数据和非结构化数据。非结构化数据包括文本、图像、语音和视频等,它们是现在大数据和人工智能领域关注的重点。;大数据的特征
;1.数据量大
大数据中的数据量大,就是指的海量数据。由于大数据往往是采取全样分析,因此大数据的“大”首先体现在其规模和容量远远超出传统数据的测量尺度
;2.数据类型繁多
(1)结构化数据常指存储关系在数据库中的数据,该数据遵循某种标准,如企业财务报表、医疗数据库信息、行政审批数据、学生档案数据等。
(2)非结构化数据常指不规则或不完整的数据,包括所有格式的办公文档、XML、HTML、各类报表、图片、图像以及咅频、视频信息等。企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。在网络中非结构化数据越来越成为数据的主要部分。值得注意的是:非结构化数据具有内部结构,但不通过预定义的数据模型或模式进行结构化。它可能是文本的或非文本的,也可能是人为的或机器生成的。它也可以存储在像NoSQL这样的非关系数据库中。
(3)半结构化数据常指有一定的结构与一致性约束,但在本质上不存在关系的数据,如常用于跨平台传输的XML数据以及JSON数据等。
;3.数据产生速度快
在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结