数据汇聚平台建设及挑战.pptx

基本信息

文件名称：数据汇聚平台建设及挑战.pptx

文件大小：4.08 MB

总页数：23 页

更新时间：2025-05-18

总字数：约4.23千字

文档摘要

数据汇聚平台建设及挑战

CONTENTS

数据汇聚平台的背景及挑战

新一代湖仓Databend如何应对Databend建设数据汇聚平台整体架构在汇聚平台上构建数据集市

数据汇聚平台的背景及挑战

数据汇聚平台的背景

任务调度

任务监控

补数数据

跑批

实时数据报表

即度查询

自助查询

跑批

客户端

业务端A业务端B

...

Nginx日志

MySQL

实时上报接口

Flume/fluentd

Maxwell

flink

MySQL统计库

Kafka

Redis

sqoop

Flume/fluentd

Maxwell

MySQL统计库

Clickhouse

Presto

Hive

Mr+Spark

HDFS

/OSS

/IceBerg

/Hudi

数据汇聚平台的背景及挑战

Clickhouse/GreenPlumES

Hudi/Icebreg/PaimonTrino/Implala

各种大模型

数据汇聚平台的背景及挑战

海量数据接入，大量数据搬家，数据一致性差

技术栈多，组件多，运维成本高

实时性处理差，数据处理流程长

流和批都过于专业，改动周期长

数据加工资源占多，存在严重的性能问题

容易形成数据孤岛，数据散落在各处

扩展性差，大量本地盘，成本可预见的顶不住

大量沉睡数据，无法真正发挥数据的价值

当前的挑战

分区设计

（有技术）

数据搬家数据核对清洗数据

存储扩容数据重分布

算力扩容

数据归档

重启服务

工作内容

数据汇聚平台的背景及挑战

统一SQL接口，SQL为王

支持海量数据任意字段查询及任意条件查询

集群扩缩容方便，计算秒级扩缩容

支持半结构化对象，复杂json处理

基于存储分离架构，海量数据可以放到S3

支持即席查询,同时支持一定量的并发，实时查询

完善的租户和权限，支持物理级别隔离

内置流的能力处理|任务调度能力

支持外置UDF，实现二制数据处理

复杂任务友好出错处理机制

IT基础架构的进化，也会出现新的产品进化，让生活变的更美好

我们需要的

CONTENTS

数据汇聚平台的背景及挑战

新一代湖仓Databend如何应对Databend建设数据汇聚平台整体架构在汇聚平台上构建数据集市

新一代湖仓 Databend 如何应对

Databend=ClickHouse+Snowflake+Rust

向量化计算，提升单机计算性能和集群能力

存储、计算分离思想，提升分布式计算能力，支持Multicluster模式

借鉴Git，MVCC列式存储引擎，支持事务及数据回溯

全面支持HDFS/Cloud-basedObjectStorage等20多种存储协议

基于便宜的对象存储也能方便的做实时性分析

内置Stream(CDC)+Task实现内置流批一体化方案

完全使用Rust研发，代码自主可控

高弹性+强分布式，致力于解决大数据分析成本和复杂度问题

新一代湖仓 Databend 如何应对

Databend内置：

数据批量，并行装载

完善的数据处理过程

功能上：Bitmap类型及函数（留存）漏斗函数

支持数据秒级写入（游戏/广告业务）

应用系统产生ndjosn,parquet,csv

利用OpenDAL直接写入对象存储

使用对象存储替换消息队列

Databend通过stage加载，每秒可以实现百级行的数据加载

应用系统

利用bucket做队列OpenDal

Databend

bucket

新一代湖仓 Databend 如何应对

流计算方案

Databases

RDBMS/NoSQL

Files

CSV/JSON/XML...

SaaSApplications

RESTAPIs

ApplicationEvents

Webhook

ExtractLoad

Analyze

DATAWAREHOUSE

ANALYTICS

Transform

新一代湖仓 Databend 如何应对

ETL

ELT（Databend)

定议

从数据源抽取，利用一个或是多个服务处理完数据，加到目标库中使用

从数据源抽取，加载到目标库中转化及处理

Extract

利用程序去抽取

Transform

结合消息队列+程序做相应的转换

在Databend中利用SQL处理原始数据，在Databend中处理

Load

处理好的数据加载到目标中

支持：csv，tsv，json，par