;;1、大数据简介;大数据技术:指从各种各样类型的数据中,快速获得有价值信息的能力。包括数据采集、预处理、存储及管理、分析及挖掘等。;规模性:指数据的量以及其完整性。;多样性:多种途径的数据来源,使非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。;当前价值
一种生产力;
带来IT的技术革命;
各行各业引发创新模式;
给生活带来深刻的变化;
提升电子政务和政府社会治理的效率。;大数据的商业价值:
可以对顾客群体细化
可以模拟实境
可以提高投入回报率
可以实现数据存储空间出租
可以管理客户关系
可以进行个性化精准推荐
可以实现数据搜索;云技术:借助云计算的处理能力实现大数据的价值。;;1、大数据分析;①交易数据:
大数据平台能够获取时间跨度更大、更海量的POS或电子商务购物数据,还包括行为交易数据。这些大多都是结构化数据。;④机器和传感数据:
机器和传感器数据是来自新兴的物联网所产生的,包括功能设备创建或生成的数据,例如,可以自动向中央服务器传输数据的智能温度控制器、工厂机器和连接互联网的家用电器。;;Hadoop是一个能够对大量数据进行分布式处理的软件框架。可以在不了解分布式底层细节的情况下,轻松架构和开发分布式程序。;HPCC是面向数据的高性能计算平台,是基于键/值进行分析索引,用于解决海量数据的处理与分析。它是一种对大数据操作、转换、查询和进行数据仓库管理的成熟的平台。;功能和特点
提供ECL(企业控制语言)编程语言,适合操作大数据。
查询集群(Roxie)提供在线查询处理和数据仓库功能。
数据提炼集群(Thor)负责对大量数据进行处理、转换、链接和索引。
具有高效性的错误恢复和冗余备份。
提供易于使用的界面。;Rapidminer是数据挖掘解决方案,其数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。;是一个以流程为中心的、面向解决方案的框架。其目的在于将一系列企业级BI(商业智能)产品、开源软件、API等组件集成起来,方便BI应用的开发。;HDFS是一个高容错性系统,它能提供高数据访问的吞吐量,适合那些有着超大数据集的应用程序。;③流式数据访问:一次写入多次读写,不支持动态改变文件内容,只能在文件末添加内容。;Map/Reduce是一套从海量数据源提取分析元素,最后返回结果集的编程模型。;传统的计算方式,编写以下代码:
Java代码
Longmoneys[]
Longmax=0L;
for(inti=0;imoneys.length;i++){
if(moneys[i]max){
max=moneys[i];
}
};Map/Reduce方法:将大的数据分成小块逐个分析,最后再将提取出来的数据汇总分析,最终获得想要的内容。;Pig是一种数据流语言,用来快速轻松的处理巨大的数据,它赋予开发人员更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序中。;数据科学家、数据工程师、数据分析师已经成为大数据行业最热门的职位。;用探索数据的方式来看待周围的世界。把大量散乱的数据变成结构化的可供分析的数据,找出丰富的数据源,整合其他可能不完整的数据源,并整理成结果数据集。
帮助决策者实现从临时数据分析到持续数据交互分析的转变,从而影响产品、流程和决策。;①计算机科学
具备编程能力及计算机科学相关的专业背景。具备处理大数据所必需的Hadoop等大规模并行处理技术与机器学习相关的技能。;数据工程师的核心价值在于他们借由清晰数据创建数据管道的能力。;①数学及统计学相关的背景
②计算机编码能力,主要是实际开发能力和大规模的数据处理能力
③对特定应用领域或行业的知识;数据分析师是专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。;借助技术手段进行高效的数据处理。要不断在数据研究的方法论方面进行创新和突破。如,在新闻出版行业,无论在任何时代,媒体运营者能否准确、详细和及时地了解受众状况和变化趋势,都是媒体成败的关键。