数据治理;大数据治理的核心是为业务提供持续的、可度量的价值。工业界IBM数据治理委员会给数据治理的定义如下:数据治理是一组流程,用来改变组织行为,利用和保护企业数据,将其作为一种战略资产。而学术界则将数据治理定义为一个指导决策确保企业的数据被正确使用的框架。;一般来说,数据治理主要包括以下三部分工作:
(1)定义数据资产的具体职责和决策权,应用角色分配决策需要执行的确切任务的决策和规范活动。
(2)为数据管理实践制定企业范围的原则,标准,规则和策略。数据的一致性,可信性和准确性对于确保增值决策至关重要。
(3)建立必要的流程,以提供对数据的连续监视和控制实践并帮助在不同组织职能部门之间执行与数据相关的决策,以及业务用户类别。;数据治理涉及的领域;(1)数据资产;(2)数据模型
数据模型是数据治理中的重要部分。理想的数据模型应该具有非冗余、稳定、一致、易用等特征。;(3)元数据与元数据管理
元数据,又称中介数据、中继数据,是描述数据的数据,是数据仓库的重要构件,是数据仓库的导航图,在数据源抽取、数据仓库应用开发、业务分析以及数据仓库服务等过程中都发挥着重要的作用。;(4)数据标准
标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、技术属性和管理属性的统一定义。;(5)主数据与主数据管理
主数据是用来描述企业核心业务实体的数据,它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。;(6)数据质量管理
大数据应用必须建立在质量可靠的数据之上才有意义,建立在低质量甚至错误数据之上的应用有可能与其初心南辕北辙背道而驰。数据质量就是确保组织拥有的数据完整且准确,只有完整、准确的数据才可以供企业分析、共享使用。;数据治理的实施与关键因素;(1)组织架构;(2)流程
在企业成立了相关的组织后要制定规范的流程,通过流程将数据治理项目??通,进而执行。通常来讲基本上是先有组织,再有流程。
(3)数据标准
有了组织和流程,就会涉及到数据标准这个层面,需要企业考虑数据要遵循什么样的标准,例如分类标准、属性标准,此外还会涉及到历史数据的清理和映射等等。
(4)工具(数据平台)
工具也就是数据治理相关的数据平台,具体是指企业的项目推进过程中使用的是哪种平台。谈到数据治理的平台,以市面上的现在的技术和系统来看,支撑数据治理已经不是难题了。目前市场上产品种类琳琅满目,企业的选型标准通常是:软件平台的稳定性较好、软件功能与企业业务的匹配程度较好等。
(5)数据治理成熟度评估
数据治理工作的成效如何去量化、衡量一直是个难题。因为企业不可能完全剥离其他因素的影响,单独去判定数据治理的效果。;数据治理的关键因素;数据清洗;架构设计;企业架构通常分为两大部分即业务架构和IT架构。
(1)业务架构
业务架构是企业治理结构、商业能力与价值流的正式蓝图,并将企业的业务战略转化为日常运作的渠道。;企业管理层通常是企业战略的提出者,而业务架构师则通常是业务蓝图的设计师,最后的解决方案则是由数据架构师、应用架构师和技术架构师来完成;主流的企业架构;常见的数据治理实现工具;Apacheranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。;ApacheSentry是Cloudera公司发布的一个Hadoop安全开源组件,其中Sentry是一个基于角色的粒度授权模块,提供了对Hadoop集群上经过身份验证的用户提供了控制和强制访问数据或数据特权的能力。它可以和Hive/Hcatalog、ApacheSolr和ClouderaImpala等集成,甚至还可以扩展到其他Hadoop生态系统组件,如HDFS和HBase。