大数据技术大数据技术概述
大数据的定义
大数据的定义维克托·迈尔·舍恩伯格大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。
大数据的定义百度百科大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的定义维基百科大数据又称为巨量资料,指的是传统数据处理应用软件不足以处理的大或复杂的数据集。
大数据的定义麦肯锡全球研究所大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据的定义Gartner大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
大数据的特征
5VVolumeVolume,大体量,数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P、E或Z。Variety,多种类,它们具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和句义,多类型的数据对数据的处理能力提出了更高的要求。Velocity,高速度,处理速度快,时效性要求高,需要实时分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。VarietyVelocityvalueVeracityvalue,低价值密度,大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。Veracity,准确性,或者称之为真实性,大数据来自现实生活,因此能够保证一定的真实准确性。相对来说,信息含量高,噪声含量低,信噪比较高。
大数据技术大数据的相关技术
问题引入大数据开发的过程大致分为大数据采集、大数据预处理、大数据存储与管理、大数据分析与挖掘、大数据可视化等五个阶段。
大数据采集
数据来源WEB端WEB端,包括基于浏览器的网络爬虫,或者API。APP端,包括无线客户端采集SDK,或者埋点。传感器,例如物联网测量值转化成数字信号。APP端传感器数据库第三方数据数据库,涉及源业务系统和数据同步,包括结构化数据与非结构化数据。第三方数据,一般是由合作方提供的,例如政府公布的数据。
ETL抽取(extract):从各种数据源获取数据。转换(transform):按需求格式将源数据转换为目标数据。加载(load):把目标数据加载到数据仓库中。
大数据预处理
大数据预处理步骤
大数据预处理步骤数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。数据清洗的目的在于提高数据质量,将脏数据清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。数据集成是将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。数据规约的目的就是从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果是基本相同。数据变换是指数据进行变换处理,使数据更适合当前任务或者算法的需求。它的主要目的是将数据转换或统一成易于进行数据挖掘的数据存储形式,使得挖掘过程更有效。
大数据存储与管理
NoSQL在大数据时代,数据库并发负载非常高,对于关系数据库来说,在庞大的表里面进行SQL查询,效率是极其低下,这就催生一种新型数据库技术,NoSQL。对于NoSQL,当前比较流行的解释是“NotOnlySQL”,它所采用的数据模型是类似键值、列族、文档等非关系模型。因此与传统关系数据库相比,NoSQL具有易扩展性、高性能、高可用、灵活的数据模型等特点。NoSQL数据库抛弃了关系模型并能够在集群中运行,不用事先修改结构定义也可以自由添加字段,这些特征决定了NoSQL技术非常适用于大数据环境,从而得到了迅猛的发展和推进。
大数据分析与挖掘
大数据分析描述型分析:发生了什么?诊断型分析:为什么会发生?预测型分析:可能发生什么?指令型分析:下一步怎么做?数据分析是指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
数据挖掘技术数据挖掘是指提取隐含在数据中的、人们事先不知道的、但又是潜在有用的信息和知识。数据挖掘的常用算法包括分类、聚类、关联规则。分类聚类关联规则聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。分类是指根据重要数据类的特征向量值及其他约束条件,建立分类函数或分类模型。关联规则是反映一