第一章绪论大数据概论及应用实践IntroductiontoBigDataandApplicationPractice
第1章绪论大数据时代悄然来临,带来了信息技术发展的巨大变革,开启一次重大的时代转型,并深刻影响着社会生产和人们生活的方方面面。企业和学术机构纷纷加大技术、资金和人员投入力度,加大对大数据关键技术的研发与应用,以期在“第三次信息化浪潮”中占得先机、引领市场。同时世界各国政府均高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进。大数据的时代的到了,它的影响力和作用力正迅速触及社会的每个角落,特别是随着计算机技术的进步以及移动互联网、物联网、云计算、5G移动通信网络技术的发展,多源异构、形式多样的数据正在沿着“摩尔定律”呈爆炸式增长,所到之处,或是颠覆,或是提升,都让人们深切感受到了大数据实实在在的威力。
数据1.1大数据时代1.2大数据的技术挑战和科学意义1.3本章小结1.4目录CONTENTS习题1.5
本节主要介绍数据的定义、数据的类型、数据组织形式、数据的生命周期、数据的价值以及大数据特征。数据PART01
1.1.1数据的定义数据和信息:数据是指对客观事物的属性、状态以及相互之间的关系等进行记载的描述客观事件的物理符号或是物理符号的组合,它们是可识别的、抽象的。信息是较为宏观的概念,它是由数据有序排列组合而成,传递给读者某个方法或者概念等不同的信息。一段时间。项目是一次性(或者说是临时性)的,每个项目都具有明确的开始和结尾。数据是信息的基本组成单位,离散的数据几乎没有任何有用的价值。
1.1.2数据的类型常见的数据类型通常包括文本、图片、视频、音频等文本:文本是一种由若干行字符构成的计算机文件。通常文本数据是不能参与算数运算的任何字符,也称之为字符型数据。图片:图片是指由图形、图像等构成的平面媒体。图片的格式很多,大体上可以分为点阵图和矢量图两大类。音频:人类能够听到的所有声音都称之为音频,它可能包括噪音等。在即使是中,数字化的声音数据就是音频数据。音频数据一般用音频文件的格式来保存。视频:视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。因此视频数据是指连续的图像序列。
1.1.3数据组织形式根据数据结构的不同,数据可分为结构化数据、半结构化数据和非结构化数据结构化数据多数存在于传统的关系型数据库中,是我们熟知的使用的数据形式,数据结构事先已经定义好,非常方便使用二维表格形式描述,便于存储和管理。非结构化数据不同于传统的结构化数据,其数据结构很难描述,不规则或者不完整,没有统一的数据结构或者模型,无法提前预知。半结构化的数据介于结构化数据与非结构化数据之间,可以用一定数据结构来描述,但通常数据内容与结构混叠在一起,结构变化很大,本质上不具有关系性,不能简单地用二维表格来实现结构描述。半结构化数据通常是自描述的结构,多数以树或者图的数据模型进行存储。
1.1.4数据生命周期数据都存在生命周期,通常为四个阶段第一阶段:数据采集,需要借助工具去实现数据转换,形成高质量的、标准化的数据,把数据变成一种可用的状态。第二阶段:数据存储与管理,“多源异构”的数据决定了数据的存储方式也是比较多样的,但是通常还是存放到数据库系统中进行管理。第三阶段:分析与挖掘,为了充分发挥存储设备和数据的价值,需要对数据生命周期进行认真分析,在不同的阶段对数据采取不同的管理策略。第四阶段:可视化显示
1.1.4数据生命周期数据全生命周期包含了以下八个阶段数据采集阶段:为了进行分析,首先必须记录或采集数据,这是创建组织内尚不存在的信息的行为。被采集到的数据可能来自公司的外部或内部。采集的数据数据维护阶段:捕捉数据后,生命周期的第二阶段可以定义为向发生数据合成和数据使用的点提供数据。数据合成阶段:数据合成涉及统计方法的使用,这些方法结合了许多数据来源或测试,以获得更好的总体估计或被问到的有关数据问题的答案。一些人把这个称为数据建模或使用归纳推理以转换数据。另一些人将数据合成视为数据维护的子集。数据使用阶段:数据使用就是如何使用数据来支持业务的任务,此阶段可以定义为将数据应用到企业需要自行运行和管理的任务。如战略规划、客户关系管理、处理发票、向供应商发送订购单等。
1.1.4数据生命周期数据分析阶段:数据分析是以创建新的信息和产生业务洞察力为目的检查原始数据的科学性。它包含技能、科学、迭代探索和对过去业务绩效的调查,以获得洞察力并推动未来的业务规划。在它最基本的层次,它意味着用数据分析的方法来回答问题。一些人将数据分析视为数据使用的子集。数据发布阶段:数据发布是向组织外部发送数据的行为,可以发布