数据汇聚平台建设及挑战
目录
CONTENTS
?
?
?
?
数据汇聚平台的背景及挑战
新一代湖仓Databend如何应对Databend建设数据汇聚平台整体架构在汇聚平台上构建数据集市
数据汇聚平台的背景及挑战
数据汇聚平台的背景
任务调度
任务监控
补数数据
跑批
实时数据报表
即度查询
自助查询
跑批
客户端
业务端A业务端B
...
Nginx日志
MySQL
实时上报接口
Flume/fluentd
Maxwell
flink
MySQL统计库
Kafka
Redis
sqoop
Flume/fluentd
Maxwell
MySQL统计库
Clickhouse
Presto
Hive
Mr+Spark
HDFS
/OSS
/IceBerg
/Hudi
数据汇聚平台的背景及挑战
Clickhouse/GreenPlumES
Hudi/Icebreg/PaimonTrino/Implala
各种大模型
数据汇聚平台的背景及挑战
01
海量数据接入,大量数据搬家,数据一致性差
02
技术栈多,组件多,运维成本高
03
实时性处理差,数据处理流程长
04
流和批都过于专业,改动周期长
05
数据加工资源占多,存在严重的性能问题
06
容易形成数据孤岛,数据散落在各处
07
扩展性差,大量本地盘,成本可预见的顶不住
08
大量沉睡数据,无法真正发挥数据的价值
当前的挑战
分区设计
(有技术)
数据搬家数据核对清洗数据
存储扩容数据重分布
算力扩容
数据归档
重启服务
工作内容
数据汇聚平台的背景及挑战
01
统一SQL接口,SQL为王
02
支持海量数据任意字段查询及任意条件查询
03
集群扩缩容方便,计算秒级扩缩容
04
支持半结构化对象,复杂json处理
06
基于存储分离架构,海量数据可以放到S3
07
支持即席查询,同时支持一定量的并发,实时查询
08
完善的租户和权限,支持物理级别隔离
09
内置流的能力处理|任务调度能力
05
支持外置UDF,实现二制数据处理
10
复杂任务友好出错处理机制
IT基础架构的进化,也会出现新的产品进化,让生活变的更美好
我们需要的
目录
CONTENTS
?
?
?
?
数据汇聚平台的背景及挑战
新一代湖仓Databend如何应对Databend建设数据汇聚平台整体架构在汇聚平台上构建数据集市
新一代湖仓 Databend 如何应对
Databend=ClickHouse+Snowflake+Rust
向量化计算,提升单机计算性能和集群能力
存储、计算分离思想,提升分布式计算能力,支持Multicluster模式
借鉴Git,MVCC列式存储引擎,支持事务及数据回溯
全面支持HDFS/Cloud-basedObjectStorage等20多种存储协议
基于便宜的对象存储也能方便的做实时性分析
内置Stream(CDC)+Task实现内置流批一体化方案
完全使用Rust研发,代码自主可控
高弹性+强分布式,致力于解决大数据分析成本和复杂度问题
新一代湖仓 Databend 如何应对
Databend内置:
数据批量,并行装载
完善的数据处理过程
功能上:Bitmap类型及函数(留存)漏斗函数
支持数据秒级写入(游戏/广告业务)
应用系统产生ndjosn,parquet,csv
利用OpenDAL直接写入对象存储
使用对象存储替换消息队列
Databend通过stage加载,每秒可以实现百级行的数据加载
应用系统
利用bucket做队列OpenDal
Databend
S3
bucket
新一代湖仓 Databend 如何应对
流计算方案
Databases
RDBMS/NoSQL
Files
CSV/JSON/XML...
SaaSApplications
RESTAPIs
ApplicationEvents
Webhook
ExtractLoad
Analyze
DATAWAREHOUSE
ANALYTICS
Transform
Transform
新一代湖仓 Databend 如何应对
ETL
ELT(Databend)
定议
从数据源抽取,利用一个或是多个服务处理完数据,加到目标库中使用
从数据源抽取,加载到目标库中转化及处理
Extract
利用程序去抽取
利用程序去抽取
Transform
结合消息队列+程序做相应的转换
在Databend中利用SQL处理原始数据,在Databend中处理
Load
处理好的数据加载到目标中
支持:csv,tsv,json,par