安全业务全链路数据仓库在58的实践与应用
1
背景
2
数据分层
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3
维度建模
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4
总线矩阵
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|||
|
|
|
|
|
|||
|
|
|
|
|
|||
|
|
|
|
||||
|
|
|
|
||||
|
|
|
|
||||
|
|
|
|
||||
|
|
|
|
||||
|
|
|
|||||
|
|
|
|
|
5
模型
6
主题划分
7
数仓整体架构
-
通用数仓: 这里主要存储一些通用的能力型数据,比如猎人风控系统、人工审核、云认证、微聊、隐私通话等,这些数据的特点是不分业务,只分接入方式和场景 -
业务数仓: 主要以业务诉求为主,建设满足行业分析的各种数据集合。因为信息安全治理工作同时也需要分析各个业务过程数据。 -
主题数仓: 以公司范围内公共的主题角度,以一致性维度为基础,跨各业务做数据的整合分析和相关建设,包括流量数仓、内容数仓、用户数仓等。
8
数据实时化演进
-
lamb da架构
-
需要同时维护实时平台和离线平台两套引擎,后期运维成本很高。 -
同时实时离线两个平台需要维护了套框架不同但业务逻辑相同代码,开发成本很高。 -
数据有两套不同链路,容易造成数据的不一致
-
kappa架构
9
数据字典
10
未来展望