vlambda博客
学习文章列表

数据仓库之仓库基础数据标准

    数据是由特定的环境产生的,这些环境因素包括生产者,时间,系统等, 这就造成了同一个语义的数据,会有多种不同的定义方法,这给后期进行数据汇集和整合带来障碍,因此,数据处理的前奏就是数据标准化,数据标准作为一个统一的数据共识,在企业的标准化中起到重要作用。

基础数据标准的分类

基础数据标准


    标准是针对数据原始定义,一般面向原系统数据或ODS层数据。包括业务语义,管理标准,技术规范,质量要求等。

指标体系


    标准针对衍生型数据,一般面向集市层的报表等计算型数据。

标准代码


    具体指数据标准中的枚举值和语义,可以作为基础数据标准的一部分,数据标准维度也是大部分来源于此。

标准编码


    特指主数据治理中的实体对象数据的唯一编码和规则,比如设备唯一编码。

业务术语词典


    指企业数据定义过程中,从业务名词到物理表和字段的标准化翻译的词根和词素。

其他规范


    包括数据库设计规范,元数据规范,模型规范等,具体可以在其他治理活动下定义,也是广义数据数据标准的一部分。一般情况下,本文所述的数据标准落标主要指基础标准落标、标准代码落标、命名标准落标。

落标概述

    数据标准的落标意义在于,企业由此开始进行数据驱动文化,开始从源头进行数据的标准化生产,加速数据的融合与统一的效率,节省大量数据应用和处理的成本。

    数据标准的落标程度可以分为基本拉通型落标和全局管控型落标。

    基本拉通型落标是指设计的数据元素符合数据标准的基本语义和业务规则,物理定义符合技术规范,具体数据语义可以进行无规范的衍生。落标范围重点是核心业务系统的核心标准和交叉标准,还有数据仓库系统的。这种类型适合中小银行的上手阶段,以及没有重大系统升级机会的系统,其核心目的是减少数据融合成本,加速数据消费的效力,适合进行数据化驱动转型的企业。

    全局管控型落标是指设计的数据元素符合数据标准的基本语义和业务规则,物理定义符合技术规范,具体的物理数据语义需要进行有规范的衍生,数据质量需要落地为数据库约束或者质量验核规则。落标范围是核心业务系统和重点业务系统,以及数据仓库等衍生系统。这种适合IT能力强,数据基础好的企业。其核心目标是掌控企业全局数据,做到数据快速迭代,适合致力于打造数据快速创新型企业。

落标过程中的衍生

子类标准


    也有一些可以不进行标准级别的衍生,比如“姓名“,具体语义的设计可能是“客户姓名”和“供应商姓名“,这两个衍生可以不作为子类标准制定,这是因为业务语义是因为数据所在的语义环境变化,本质并没有不同。

同义词


    同一类语义标准,在不同的业务口径中或者不同的人群中,会有不同的名词,比如保单号和保单代码是同一语义的名词。这时候需要将两者定义为同义词,并在每一个定义时,标注清楚使用语境。

落标难点

    数据标准主要解决数据在共享,融合,汇集应用中的不一致问题。好的,那么我们看哪些数据会出现在这个这三个环节中,以及哪些容易出现问题。对于与一个企事业组织来说,按照价值链,一般关注三大要素:客户,产品,大运营。IBM和TD将银行业划分为九大概念数据,也是围绕客户与产品的大运营活动细分。以下是常见的难点。

积重难返


    根据破窗常理,没人在乎再多一块破窗户。数据业务系统绝大部分已经建设完成,木已成舟,不标准也没法修改了。

开发设计规范不重视


    开发团队的责任和考核点主要是系统上线,支撑业务,在开发团队的很多人看来,数据标准化的设计是一个可选项,影响上线时间才是大事。

标准落标不方便,影响效率


    很多家咨询公司的数据标准,技术规范普遍缺失。这证明标准开始就没有认真考虑落标问题,这就造成落标很不方便,先在Excel里查找,再手工拷贝,再类型翻译,确实影响效率。

监管与激励缺失


    现在的数据结构和字典中,落标与不落标是没有量化跟踪的,这直接造成激励与认责无法落地执行。