数据仓库模型设计的评估标准
前言
在大数据时代,数据仓库建设成为了大部分公司进行数据化和智能化运营必不可少的基础投入。如何对数据仓库与及对应模型的设计进行评价是非常有必要的。知其然,才能利其器。
接下来主要会从如何评价数据仓库整体架构和模型设计两个方面进行阐述。
1.数据仓库架构评价的标准
其实,简单来说,数据仓库也可以理解为一个系统,只不过是“数据系统”。因此,数据的可靠性,稳定性和健壮性也是可以做为数据仓库评价的标准。
另外,跟应用系统的不同点是,数据仓库的根本目的是面向决策的,并不是根据需求驱动,它的需求响应敏捷度快慢和数据复用性也是不能少的标准。
最后,由于当代用户隐私敏感数据保护的强烈意识,数据安全性也成为当代数据仓库架构和模型设计要考虑的一个因素和评估方向。
1.1 响应敏捷性
数据仓库的需求场景主要有数据业务应用、数据产品、自动分析这三大类。
不管对于哪类场景的数据需求,都需要在极短时间内满足业务方的需求。按照一般经验来说,60%的需求是在1小时内满足,80%的需求在1天内完成,99%的需求在1周内响应。
基于这么强响应时间要求,一个好的数据仓库必然需要好的元数据管理体系和方便的数据取数平台。
1.2 数据复用性
另外,数据仓库敏捷的需求快响应也是建立于数据的高复用性。复用性体现该数据模型下游依赖数,字段调用次数和核心业务覆盖度等等。
因此,拥有可量化的数据复用指标是一个很好的方法来评价数据仓库。譬如,可以通过计算来自数据仓库模型的指标个数占整个数据应用层的全量指标数的占比多少来衡量数据仓库业务的覆盖度。
1.3 数据可靠性
-
首先,无规矩不成方圆。好的规范体系能保障整个数据仓库建设的一致性和完整性。在规范上,需要明确架构层级之间,主题,维度和指标的定义,设计和命名规范和对应的研发规范; -
其次,数据是可测试的,在横纵向业务上能保持一致性和数据可解释性; -
最后,数据是可监控的,能在指标,表和业务级别都能做到监控。并且实现自动化。
1.4 模型健壮性
业务是不断变化的。数据仓库模型要具有兼容性才能避免每次推翻重做的风险,减少每次迭代的时间和人力成本。
1.5 产出稳定性
产出的稳定性体现在核心模型在规定的产出时间内正常产出和普通模型日常不掉链子之外,还体现在即使因为硬件或网络导致的故障之后能够快速恢复数据,达到资损最小化。
1.6 数据安全性
对于敏感业务主题的数据或模型具有架构性或物理性的隔离设计与及读写权限控制和申请流程。
2 模型设计评估标准
在上述整个数据仓库架构的评价标准基础上,在评估详细模型设计方面,我们还需要考虑以下几点。
-
粒度维度指标清晰可理解
根据维度建模理论,按照一定业务事务过程进行业务划分,明细层粒度明确,历史数据可获取,业务脏数据清洗和标准化;汇总层维度和指标同名同义,能客观反映业务不同角度下的量化程度。
-
核心模型相对稳定性
根据核心业务对模型重要层级进行划分,重点保障核心模型。除了在核心业务模型重点把控之外,还要对模型上的核心指标覆盖度进行评估和重点关注。
-
高内聚和低耦合
各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务的指标,造成该模型主题不清晰和性价比低。
-
计算存储运维成本和性能
计算最优化,存储最少化,运维最低化,性能才能最优化。
-
历史数据处理
单日可回跑,历史数据可并行回刷,降低历史数据回刷和维护成本。