数据湖仓基础知识
;
数据仓库
数据湖
数据湖仓;
PART数据仓库;
上世纪70年代,关系数据库(传统数据库的主要类型)刚刚崛起时,美国康奈尔大学博士比尔·恩门(BillInnmon,也有译为比尔·因蒙)就开始定义和讨论数据仓库这一术语。
1988年,IBM研究人员巴里·德夫林(BarryDevlin)和鲍尔·穆尔菲(PaulMurphy),联
合发表了文章《商业和信息系统的架构》,其中引入了“商业数据仓库”一词。他们还开发了一种叫做“业务数据仓库”的系统。
几年后,1990年,美国科学家拉尔夫·金博尔(RalphKimball)创立了RedBrickSystems公司,推出专门用于数据仓库的数据库管理系统RedBrickWarehouse。
1991年,比尔·恩门创立了PrismSolutions公司,推出用于开发数据仓库的软件Prism
WarehouseManager。
同年,比尔·恩门正式出版了数据仓库的经典著作——《构建数据库仓库??,标志着数据仓库概念的正式确立。他也被誉为“数据仓库之父”。;
□数据仓库的定义
数据仓库,英文全称DataWarehouse,简称DW或DWH。
比尔·恩门在《构建数据库仓库》书中给出的数据仓库的定义——
·数据仓库,是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-
Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。;
□数据仓库的特征
支持管理决策
·描述:简单来说,传统数据库主要是员工使用,支撑某项具体的工作(例如收银系统等)。而数据仓库主要是管理层使用,用于掌握宏观情况,以便做出更合理的决策。
·总结:数据仓库是一个战略级的工具。它通常用于商业智能(BusinessIntelligence,简称BI)和决策支持,可以帮助企业从大量数据中获得有价值的信息,增加洞察能力。
·目的:增加收入、提升效率、降低成本。;
□数据仓库的特征
面向主题
·描述:传统数据库,围绕具体的工作(应用)来组织数据,用于一个明确的事务。例如进销存数据库、考勤数据库、财务数据库等。而数据仓库,是按照主题来组织数据的。所谓主题,是一个特定的业务领域,或者一个明确的分析目标,例如销售分析主题??员工敬业度主题,学生在校表现主题等等。主题的范围更大,level(层级)更高。
·总结:数据仓库的数据,是多个传统数据库的集合和“拉通”。它把不同数据库表单的信息挑选整合在一起,提供了一个更全面的数据呈现。
·目的:适合支持管理者做决策和分析。;
□数据仓库的特征
集成
·描述:数据仓库可以整合来自多个不同数据源(企业内部数据库、供应商数据库、渠道商数据库等)的数据。
·总结:数据仓库可以包括结构化数据、半结构化数据和非结构化数据等,但主要还是以结构化数据为主。
·目的:提供一个更全面的视角,以便服务于分析和决策。;
□数据仓库的特征
相对稳定
·描述:数据一旦被加载到数据仓库中,通常不会更新或修改,确保了数据的稳定性和用于长期分析的可靠性。
·总结:数据仓库所涉及的操作,主要是数据查询,而不是修改。;
□数据仓库的特征
反映历史变化
·描述:传统数据库,一般都是数据更新。写入新数据,替换旧数据。数据仓库不一样,它保存了大量的历;
■数据仓库
□数据仓库的参考架构
原始数据层(ODS,OperationDataStore):
也叫数据引入层、操作数据层、数据准备层或贴源层,用于采
集和存储原始数据。
数据公共层(CDM,CommonDataModel):
又分为基础层/明细层(DWD,DWDetail)、汇总层/服务层
(DWS,DWService)、公共维度层(DIM)。DWD对源数
据进行清洗以便将其加载到数据仓库中。DWS将经过清洗和转
换后的数据并轻度汇总。DIW用于保存维度信息,用于建模。
数据应用层(ADS,ApplicationDataService):
主要功能是保存结果数据,为外部系统提供查询接口,用于满
足特定的商业智能、数据挖掘和报表应用。;
从不同的数据源系统中抽取数据。定期进行的(例如每天或每周)。
提高数据质量和一致性。清洗包括修正错误、去除重复项、处理缺失值等。
转换则是将数据转化为统一的格式