基本信息
文件名称:数据湖仓基础知识.pptx
文件大小:1.91 MB
总页数:58 页
更新时间:2025-05-27
总字数:约9.54千字
文档摘要

数据湖仓基础知识

;

数据仓库

数据湖

数据湖仓;

PART数据仓库;

上世纪70年代,关系数据库(传统数据库的主要类型)刚刚崛起时,美国康奈尔大学博士比尔·恩门(BillInnmon,也有译为比尔·因蒙)就开始定义和讨论数据仓库这一术语。

1988年,IBM研究人员巴里·德夫林(BarryDevlin)和鲍尔·穆尔菲(PaulMurphy),联

合发表了文章《商业和信息系统的架构》,其中引入了“商业数据仓库”一词。他们还开发了一种叫做“业务数据仓库”的系统。

几年后,1990年,美国科学家拉尔夫·金博尔(RalphKimball)创立了RedBrickSystems公司,推出专门用于数据仓库的数据库管理系统RedBrickWarehouse。

1991年,比尔·恩门创立了PrismSolutions公司,推出用于开发数据仓库的软件Prism

WarehouseManager。

同年,比尔·恩门正式出版了数据仓库的经典著作——《构建数据库仓库??,标志着数据仓库概念的正式确立。他也被誉为“数据仓库之父”。;

□数据仓库的定义

数据仓库,英文全称DataWarehouse,简称DW或DWH。

比尔·恩门在《构建数据库仓库》书中给出的数据仓库的定义——

·数据仓库,是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-

Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。;

□数据仓库的特征

支持管理决策

·描述:简单来说,传统数据库主要是员工使用,支撑某项具体的工作(例如收银系统等)。而数据仓库主要是管理层使用,用于掌握宏观情况,以便做出更合理的决策。

·总结:数据仓库是一个战略级的工具。它通常用于商业智能(BusinessIntelligence,简称BI)和决策支持,可以帮助企业从大量数据中获得有价值的信息,增加洞察能力。

·目的:增加收入、提升效率、降低成本。;

□数据仓库的特征

面向主题

·描述:传统数据库,围绕具体的工作(应用)来组织数据,用于一个明确的事务。例如进销存数据库、考勤数据库、财务数据库等。而数据仓库,是按照主题来组织数据的。所谓主题,是一个特定的业务领域,或者一个明确的分析目标,例如销售分析主题??员工敬业度主题,学生在校表现主题等等。主题的范围更大,level(层级)更高。

·总结:数据仓库的数据,是多个传统数据库的集合和“拉通”。它把不同数据库表单的信息挑选整合在一起,提供了一个更全面的数据呈现。

·目的:适合支持管理者做决策和分析。;

□数据仓库的特征

集成

·描述:数据仓库可以整合来自多个不同数据源(企业内部数据库、供应商数据库、渠道商数据库等)的数据。

·总结:数据仓库可以包括结构化数据、半结构化数据和非结构化数据等,但主要还是以结构化数据为主。

·目的:提供一个更全面的视角,以便服务于分析和决策。;

□数据仓库的特征

相对稳定

·描述:数据一旦被加载到数据仓库中,通常不会更新或修改,确保了数据的稳定性和用于长期分析的可靠性。

·总结:数据仓库所涉及的操作,主要是数据查询,而不是修改。;

□数据仓库的特征

反映历史变化

·描述:传统数据库,一般都是数据更新。写入新数据,替换旧数据。数据仓库不一样,它保存了大量的历;

■数据仓库

□数据仓库的参考架构

原始数据层(ODS,OperationDataStore):

也叫数据引入层、操作数据层、数据准备层或贴源层,用于采

集和存储原始数据。

数据公共层(CDM,CommonDataModel):

又分为基础层/明细层(DWD,DWDetail)、汇总层/服务层

(DWS,DWService)、公共维度层(DIM)。DWD对源数

据进行清洗以便将其加载到数据仓库中。DWS将经过清洗和转

换后的数据并轻度汇总。DIW用于保存维度信息,用于建模。

数据应用层(ADS,ApplicationDataService):

主要功能是保存结果数据,为外部系统提供查询接口,用于满

足特定的商业智能、数据挖掘和报表应用。;

从不同的数据源系统中抽取数据。定期进行的(例如每天或每周)。

提高数据质量和一致性。清洗包括修正错误、去除重复项、处理缺失值等。

转换则是将数据转化为统一的格式