基本信息
文件名称:数据汇聚平台建设及挑战.pptx
文件大小:4.08 MB
总页数:23 页
更新时间:2025-05-18
总字数:约4.23千字
文档摘要

数据汇聚平台建设及挑战

目录

CONTENTS

?

?

?

?

数据汇聚平台的背景及挑战

新一代湖仓Databend如何应对Databend建设数据汇聚平台整体架构在汇聚平台上构建数据集市

数据汇聚平台的背景及挑战

数据汇聚平台的背景

任务调度

任务监控

补数数据

跑批

实时数据报表

即度查询

自助查询

跑批

客户端

业务端A业务端B

...

Nginx日志

MySQL

实时上报接口

Flume/fluentd

Maxwell

flink

MySQL统计库

Kafka

Redis

sqoop

Flume/fluentd

Maxwell

MySQL统计库

Clickhouse

Presto

Hive

Mr+Spark

HDFS

/OSS

/IceBerg

/Hudi

数据汇聚平台的背景及挑战

Clickhouse/GreenPlumES

Hudi/Icebreg/PaimonTrino/Implala

各种大模型

数据汇聚平台的背景及挑战

01

海量数据接入,大量数据搬家,数据一致性差

02

技术栈多,组件多,运维成本高

03

实时性处理差,数据处理流程长

04

流和批都过于专业,改动周期长

05

数据加工资源占多,存在严重的性能问题

06

容易形成数据孤岛,数据散落在各处

07

扩展性差,大量本地盘,成本可预见的顶不住

08

大量沉睡数据,无法真正发挥数据的价值

当前的挑战

分区设计

(有技术)

数据搬家数据核对清洗数据

存储扩容数据重分布

算力扩容

数据归档

重启服务

工作内容

数据汇聚平台的背景及挑战

01

统一SQL接口,SQL为王

02

支持海量数据任意字段查询及任意条件查询

03

集群扩缩容方便,计算秒级扩缩容

04

支持半结构化对象,复杂json处理

06

基于存储分离架构,海量数据可以放到S3

07

支持即席查询,同时支持一定量的并发,实时查询

08

完善的租户和权限,支持物理级别隔离

09

内置流的能力处理|任务调度能力

05

支持外置UDF,实现二制数据处理

10

复杂任务友好出错处理机制

IT基础架构的进化,也会出现新的产品进化,让生活变的更美好

我们需要的

目录

CONTENTS

?

?

?

?

数据汇聚平台的背景及挑战

新一代湖仓Databend如何应对Databend建设数据汇聚平台整体架构在汇聚平台上构建数据集市

新一代湖仓 Databend 如何应对

Databend=ClickHouse+Snowflake+Rust

向量化计算,提升单机计算性能和集群能力

存储、计算分离思想,提升分布式计算能力,支持Multicluster模式

借鉴Git,MVCC列式存储引擎,支持事务及数据回溯

全面支持HDFS/Cloud-basedObjectStorage等20多种存储协议

基于便宜的对象存储也能方便的做实时性分析

内置Stream(CDC)+Task实现内置流批一体化方案

完全使用Rust研发,代码自主可控

高弹性+强分布式,致力于解决大数据分析成本和复杂度问题

新一代湖仓 Databend 如何应对

Databend内置:

数据批量,并行装载

完善的数据处理过程

功能上:Bitmap类型及函数(留存)漏斗函数

支持数据秒级写入(游戏/广告业务)

应用系统产生ndjosn,parquet,csv

利用OpenDAL直接写入对象存储

使用对象存储替换消息队列

Databend通过stage加载,每秒可以实现百级行的数据加载

应用系统

利用bucket做队列OpenDal

Databend

S3

bucket

新一代湖仓 Databend 如何应对

流计算方案

Databases

RDBMS/NoSQL

Files

CSV/JSON/XML...

SaaSApplications

RESTAPIs

ApplicationEvents

Webhook

ExtractLoad

Analyze

DATAWAREHOUSE

ANALYTICS

Transform

Transform

新一代湖仓 Databend 如何应对

ETL

ELT(Databend)

定议

从数据源抽取,利用一个或是多个服务处理完数据,加到目标库中使用

从数据源抽取,加载到目标库中转化及处理

Extract

利用程序去抽取

利用程序去抽取

Transform

结合消息队列+程序做相应的转换

在Databend中利用SQL处理原始数据,在Databend中处理

Load

处理好的数据加载到目标中

支持:csv,tsv,json,par