第五章大数据基础
学习目标了解大数据的定义、特征、发展历程及典型应用。了解大数据处理的基本过程及关键技术。了解Hadoop生态系统的相关构成和核心组件。了解Hive、PythonSpark进行数据分析。
学习目录5.1大数据的概念5.2大数据关键技术5.3大数据应用案例5.4Hadoop大数据分析5.5Hadoop大数据分析实践
5.1大数据的概念5.1.1大数据的定义5.1.2大数据的特征5.1.3大数据的发展5.1.4大数据的应用场景
5.1.1大数据的定义规模超过一定大小,大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。单位换算关系字节(Byte)1B=8bit千字节(KB)1KB=1024B兆字节(MB)1MB=1024KB吉字节(GB)1GB=1024KB太字节(TB)1TB=1024GB拍字节(PB)1PB=1024TB艾字节(EB)1EB=1024PB泽字节(ZB)1ZB=1024EB尧字节(YB)1YB=1024ZB珀字节(BB)1BB=1024YB诺字节(NB)1NB=1024BB
5.1.2大数据的特征数据量大(Volume)大数据的最显著特点就是数据量非常大,远远超过传统数据库能够处理的数据量,其数据量可以从几十TB到数百EB甚至更多。数据类型多(Variety)大数据的数据来源众多,各行各业,每时每刻都在产生着不同类型的数据。包含各类关系数据库中的数据表、Excel电子表格、文本信息,音频信息,视频信息,图像信息,位置信息,链接信息等价值密度低(Value)大数据时代各种传感设备,自动化设备时刻产生出的海量数据其价值密度远低于传统的关系数据库中的数据。处理速度快(Velocity)大数据的海量数据,其处理和分析速度都需要达到秒级甚至毫秒级的响应,数据处理速度越快,发挥的价值越大。准确性高(Veracity)大数据通过技术手段分析全部数据,能够在很大程度上避免了传统数据时代因为采样和分析方法导致的偏差,极大提高了数据分析的准确性。复杂性高(Complexity)大数据的高复杂性主要包含三方面,其一数据自身存在较高的复杂性,其二针对海量异构的复杂数据进行计算的复杂性,其三支撑复杂数据存储和复杂计算的信息系统的复杂性。
5.1.3大数据的发展第一阶段:萌芽期1980—2008年,未来学家托夫勒在其所著的《第三次浪潮》一书中,首次提出“大数据”一词。这一阶段,数据挖掘理论和数据库技术逐步发展并成熟,数据仓库、专家系统、知识管理系统等多种商业智能工具和技术开始被应用;第二阶段:成长期2009—2012年,互联网数据爆发式增长,在我国,信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析等大数据的重要组成部分。第三阶段:爆发期2013—2015,2013年,称为“大数据元年”,以阿里、腾讯、百度为代表的互联网公司纷纷推出创新型大数据应用。国家多种重大研究计划将大数据研究列为重大的研究课题。2015年8月,国务院发布《关于促进大数据发展的行动纲要》,提出了我国大数据发展的顶层设计。第四阶段:大规模应用期2016年至今,各行各业都开始涌现大数据的应用,大数据产业迎来快速发展和大规模应用实施。
5.1.4大数据的应用场景金融行业大数据在金融行业应用范围较广。金融行业在大数据的驱动下实现了精准营销、风险管控、决策支持、效率提升、服务创新、产品创新。医疗行业大数据让就医、看病更简单。随着大数据在医疗行业的深度融合,能够给病人优质、合理的诊疗方案,提高医生的看病效率,降低误诊率,使得疾病的治疗变得更加精准和高效。零售行业零售行业可以利用大数据技术进行精准营销。通过数据分析掌握未来消费趋势,有利于热销商品的进货管理和过季商品的处理,从而提高资源的有效利用,降低产能过剩,减少不必要的生产浪费。交通出行通过对交通信息的感知和收集,对存在于各个管理系统中的海量的数据共享运用、有效分析,实现对交通态势预测,从而满足公众对交通信息服务的需求。
5.2大数据关键技术5.2.1大数据的采集5.2.2大数据的预处理5.2.3大数据计算5.2.4大数据挖掘5.2.5大数据安全5.2.6大数据可视化
5.2.1大数据的采集Web数据采集从互联网网站获取大量公共数据,并将数据通过相应数据处理技术,将非结构化的信息从大量的网页中抽取出来以指定的方式存储。系统日志采集收集计算机系统内部生成的日志信息,如操作系统、应用程序、网络设备等产生的日志。数据库数据采集将大量的数据从不同的数据源中采集到一个集中的数据库中,以便进行分析和应用。其他数据(感知设备等数据采集)通过传