滴滴数据资产管理实践
演讲人:李炉阳
自我介绍:
李炉阳
?2010~2017阿里巴巴,担任数据架构师,
整体负责数据地图、数据管理等;
?2017~now滴滴出行,负责数据开发
平台和资产管理平台;
?丰富的大数据资产管理和治理经验。
平台建设之数据开发平台
滴滴的数据资产概述
平台建设之资产管理平台
平台建设之数据应用平台
目录/Contents
01
03
02
04
滴滴的数据资产概述
路
?静态信息:全球、全国、城市等各粒度
?动态信息:行程轨迹
日均处理处理4875+TB数据
日新增106TB+数据
150亿
日定位数据
700亿
日ETA请求
1000+座全球城市
人
?司机?乘客
滴滴的数据资产
5.5亿+
用户
地理位置、轨迹相关
的数据占比高
结构化数据为主,
价值密度高
滴滴的数据特色
实时数据占比高
滴滴的数据平台业务架构
?元数据打通,更准确识别公司核心数据资产,辅助资产信息的完善,从而沉淀数据资产
统一数据门户PCAPP-H5
数据应用
产品平台BI自助分析决策分析业务分析看板分析
技术业务元数据打通
离线引擎
实时引擎
机器学习引擎
数据公共层
指标管理平台
资产管理平台
数据服务化
…
数据大屏
大屏用户
数据内容建设
数据开发平台
业务应用/DS
内部用户/DS
数据同步
数据开发
监控告警
项目管理
数据质量
权限管理
数据接入
数据消费
工具
调度
平台建设之数据开发平台
一站式智能数据开发、生产平台——数据中台(数据梦工场)
数据开发
数据质量
……
内置
规范
产出
语义明确
的
元数据
衍生
更智能化
的
平台服务
数据梦工场
高质量的元数据
数据应用产品
离线计算引擎Hive、Spark
智能地图
消息队列
Kafka、DDMQ
机器学习
TensorFlow
流计算引擎Flink
数据检索ES
HbasePhoenix
数据地图
数据安全
标签系统
算法平台
机器学习
监控告警
资产管理
同步中心
调度
……
稳定高效异构数据源同步服务。
1)集成实时、离线两种方式;
2)快速扩展,插件式拓展多种同步类型;
3)自主运维,同步相关指标清晰可见;
4)为流计算提供实时数据源;
项目管理和权限管理
产品功能
调度系统
监控报警
数据质量
数据开发
数据同步
1)智能编辑器,支持各种库表、函数、变量
联想输入、动态语法检查等
2)提供SQL格式化、错误提示,提供更顺滑的SQL开发体验
3)支持各种SQL(Hive、Spark、Presto)、Shell、PySpark等类型任务支持,
4)支持文件多版本、任务回滚;
5)直通调度,字段检测依赖,方便测试和上
线任务。
6)提供历史查询记录和大规模数据下载能力(经过安全审批)
针对数据开发、临时查询场景,为用户提供更加规范、顺滑的数据开发体验:
项目管理和权限管理
产品功能
数据质量
调度系统
监控报警
数据同步
数据开发
1)提供开发、生产两套环境,相互隔离
2)支持MR/Hive/Spark/Shell等不太任务类型的任务调度
3)支持小时、天、周、月多种调度周期配置
4)数据回溯简单易用:支持重跑、支持多维度运维
支持百万级的离线例行任务调度,保障业务稳定运行。
项目管理和权限管理
产品功能
数据同步
数据开发
调度系统
监控报警
数据质量
数据
加工
智能监控任务运行情况,异常时发出告警。
体系化解决“是否报警、何时报警、如何报警、给谁报警”,杜绝无效报警;
?任务出错
?任务延迟
?抽象“数据基线”保证重要数据的及时产出,
并动态规划相关任务优先级。
?结合算法,预测可能的数据延迟,提前预警,将影响面降到最低。
?升级逻辑,避免漏处理。
?数据量
?流量
?异常数据
项目管理和权限管理
产品功能
数据同步
调度系统
监控报警
数据质量
数据开发
?存储告警
?计算告警
数据
接入
资源
告警
1)完整配置VS快速配置
2)强规则VS弱规则
3)表规则VS字段规则
4)预设规则VSSQL规则
41%
全链路的数据质量管控,实现数据质量校验、通知、管理能力
项目管理和权限管理
产品功能
数据同步
数据开发
监控报警
数据质量
调度系统
1)项目管理提供项目自身的增删
改查以及项目内的人员、角色、
生产账号、库表、存储和队列等资产管理功能。
2)权限管理针对人员、角色的权限