记录工作中搭建数据中心(数仓)的过程演进。
---
title: before 2022
---
graph LR
MySQL[(Online MySQL)] ---> |业务逻辑| Dashboard[报表实时呈现]
优点
缺点
---
title: 2022
---
graph LR
MySQL[(Online MySQL Slave)]
DW[(数仓)]
BTable[(BI数据表)]
BI[BI分析框架(阿里BI)]
Logic[定时任务]
X[基础数据补完]
Y[数据清洗、聚合与打宽]
Z[视图物化]
MySQL --> |Shell脚本 + 定时同步| DW
Logic -.-> BTable
DW --> BTable
BTable --> BI
DW -.-> Logic
Logic --> X
Logic --> Y
Logic --> Z
优点
缺点
---
title: 2022-2024
---
graph LR
User((用户))
MySQL[(Online MySQL Slave)]
DW[(数仓)]
BTable[(BI数据表)]
CH[(ClickHouse<br>列式引擎)]
BI[BI分析]
Logic[定时任务]
Task1[基础数据补完]
Task2[数据清洗、聚合与打宽]
Task3[视图物化]
Dashboard[业务看板]
MySQL --> |Shell脚本 + 定时同步| DW
DW -.-> Logic
Logic --> Task1
Logic --> Task2
Logic --> Task3
Logic -.-> BTable
DW --> BTable
BTable --> |物化MySQL| CH
CH --> BI
CH --> |业务逻辑| Dashboard
User --> |权限分配| Dashboard
优点
缺点
2025-05-26 更
---
title: 2025
---
graph LR
User((用户))
MySQL[(Online MySQL Slave)]
Doris[(数仓 Apach Doris)]
BI[BI分析]
Dashboard[业务看板]
BTable[业务宽表]
User --> |权限分配| Dashboard
MySQL --> |Apach SeaTunnel| Doris
Doris --> |业务逻辑| Dashboard
Doris -.-> BI
Doris <-.-> BTable
BTable--> |业务逻辑| Dashboard
相较于版本 v3 我们有如下改进
Shell 同步脚本 改为了 Apache Seatunnel 同步更高效,部分数据表使用了增量更新减少数据重复提取整体缩减了数据传输链路,同时降低了维护成本,重点放在设计数仓表结构以及业务逻辑维护上。