初识数据仓库-基本概念
数据仓库产生背景
数据仓库为用户提供多样的功能需求
数据仓库的定义
什么是数据仓库
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理
决策(Decision Making Support)。
ETL
数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。
Data Mart
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数(subjectarea)。
基本概念-维度
维度:对数据进行分类的一种结构,用于从特定的角度观察数据。
(例如:时间、地区、产品)
维度的两个用途
选择针对期望详细程度的层次的数据
分组对细节数据综合(聚集)到相应的详细程度的数据层次
基本概念-度量&Cube
度量(指标):数据的实际意义,一般是一个数值度量指标
例如:销售量、销售额,……
一个度量的两个组件
数字型指标
聚集函数
CUBE:一个多维模型构成的多维数据空间我们将其称做数据立方体(Cube)
其逻辑上相当于一个多维数组
基本概念-星型模式(StarSchema)
星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做20~80分析。这样就可以从不同的角度数字来分析业务主题的情况。
基本概念-雪花模式(SnowFlake Schema)
雪花模型,当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。
相比星型模型,雪花模型的特点是贴近业务,数据冗余较少,但由于表连接的增加,导致了效率相对星星模型来的要低一些
基本概念-元数据
元数据是描述数据的数据,其内容主要包括数据的格式、结构、约束、加工过程、部署情况等。
元数据管理包括元数据采集与关联、元数据信息维护、标准代码及术语信息维护等内容。对元数据的分析包括血缘分析、影响分析等。