inmon & kimball 数据仓库&数据集市(1)理论
概述
比尔·恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者,是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。
他发布过很多文章和数据,最著名的要数“Building the Data Warehouse”(《数据仓库的建立》),也正是这本书为恩门赢得“数据仓库之父”的殊荣。
其在书中给出了数据仓库的概念,随后有精确的指出数据仓库是企业管理和决策中面向主题的、集成的、与时间相关的、非易变的数据集合。
而相对的,《企业信息化工厂》相对完善和精确的描述了数仓的建设
inmon 主张自上而下建立数据仓库,以第三范式进行数据仓库模型设计
inmon的生活好友,拉尔夫·金博尔(Ralph Kimball)博士出版了他的第一本书“The DataWarehouse Toolkit”(《数据仓库工具箱》),主张自下而上的方式,力推数据集市建设。
inmon和kimball 都主张 数据仓库中的数据应该是净化的、一致的、并且不受到其来源的遗留系统和 OLTP 系统设计的牵制
主张(分歧)
Bill Inmon
将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”(Building the data warehouse,第 2 版,第 33 页)。
通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如客户、供应商、产品等等。
每个主题区域仅仅包含该主题相关的信息。
数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。
换言之,某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。
Inmon 的方法包含了更多上述工作而减少了对于信息的初始访问。但他认为这个集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远来看将真正节省资源和工作。
Ralph Kimball
“数据仓库仅仅是构成它的数据集市的联合”(Figure 2,The Data Warehouse Lifecycle Toolkit,第 27 页)
可以通过一系列维数相同的数据集市递增地构建数据仓库
每个数据集市将联合多个数据源来满足特定的业务需求
通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。
Kimball的方法将提供集成的数据来回答组织迫切的业务问题并且要快于Inmon的方法。Inmon的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市。而Kimball认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。
inmon数据仓库
仓库特点
面向主题
数据仓库的特性是按照企业操作过程的各个主要环节组建的。诸如 客户、产品、供应商、交易、订货、会计、发货等等
所谓的面向主题,就是数据按指定的主题域组织数据,同一个主题域的表由一个公共建码联系起来
数据集成
应用问题的设计人员历经多年制定出来的不同的设计决策有很多很多种不同的表示方法,
没有什么应用在编码、命名习惯、实际属性、属性度量等方面是一致的,各个应用问题设计
员自由地做出他或她自己的设计决策。
当数据进入数据仓库时,要采用某种方法来消除应用问题中的许多不一致性。例如 “性别”的编码,在数据仓库中是编码为m / f还是1 / 0并不重要,重要的是,
无论什么原始应用问题,无论数据仓库如何进行编码,在数据仓库中应该一致地进行编码
对所有的应用设计问题都要考虑同样的一致性处理,比如命名习惯、键码结构、属性度量以及数据特点
非易失(易变)的(相对稳定点的)
操作型数据正规地是一次访问和处理一个记录。可以对操作型环境中的数据进行更新。但数据仓库中的数据通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。
反映数据历史变化
数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是不多于最近半年,而数据仓库中数据的时间期限通常是forever。
操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素
包含汇总数据和详细数据
数据仓库除了包含详细数据之外,还包含2种汇总数据:1、简档记录 2、公共汇总数据
简档记录就是根据某个主体汇总个体一段时间信息成一个摘要。是仓库常见汇总
公共汇总数据通常以部门为单位组织汇总数据,但适合整个企业范围应用。比如财务,佣金,风控
Kimball数据仓库
目标
必须使得组织机构的信息变得容易存取
必须一致的扎按时组织机构的信息
必须有广泛的适应性和便于修改
必须发挥安全堡垒作用以保护信息资产
必须在同推进有效决策方面承担最基本的角色
被业务群体提接受的前提是被认定为是成功的
组成
操作型源系统
是获取行业业务记录的操作系统,是数仓之外的部分,一般情况下只对源系统放过来的数据内容及其格式做少量的控制处理。
数据聚集环节
包括数据存储和ETL过程,一旦数据被抽取到聚集环节,便意味着大量可能的转换,这包括数据的清理,多数据源的组合,重复数据的去除以及仓库关键字的分配,这些转换是数据加载到数据仓库环节的准备。
数据展示
进行数据组织,存储和向用户、报表撰写、其他分析型应用提供直接处查询操作的场所。数据聚集环节业务是接触不到的,这样一来数据展示环节就成了业务眼中的数据仓库。
一般来说,展示环节就是一系列数据中心的集成,一个数据中心只展示一业务处理过程得到的数据,这些业务处理的内容不受机构职能划分的限制
要点
数据以维度形式展示,存储和访问。
维度模型和3NF建模不同,3NF是一种以消除数据冗余为追求目标的设计,珊瑚橘被划分成成很多离散的实体,而这些实体形成关系型里的一张表。
维度建模采用一种将设计目标放在用户的易于理解性,查询高性能和修改的灵活性等等方面对数据进行封装
数据存取工具
那些提供给业务用户操作数据展示环节,以进行分析决策制定的各种功能