vlambda博客
学习文章列表

初识数据仓库-基本概念

数据仓库产生背景

初识数据仓库-基本概念

数据仓库为用户提供多样的功能需求

初识数据仓库-基本概念

数据仓库的定义

  • 什么是数据仓库

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理

决策(Decision Making Support)

  • ETL

数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。

  • Data Mart

为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数(subjectarea)。

基本概念-维度

维度:对数据进行分类的一种结构,用于从特定的角度观察数据。

(例如:时间、地区、产品)􀂾

维度的两个用途

       选择针对期望详细程度的层次的数据􀂙

       分组对细节数据综合(聚集)到相应的详细程度的数据层次

初识数据仓库-基本概念

基本概念-度量&Cube

度量(指标):数据的实际意义,一般是一个数值度量指标

例如:销售量、销售额,……

一个度量的两个组件

数字型指标

聚集函数

CUBE:一个多维模型构成的多维数据空间我们将其称做数据立方体(Cube

其逻辑上相当于一个多维数组

初识数据仓库-基本概念

基本概念-星型模式(StarSchema

星形模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做2080分析。这样就可以从不同的角度数字来分析业务主题的情况。

初识数据仓库-基本概念

基本概念-雪花模式(SnowFlake Schema)

雪花模型,当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。

相比星型模型,雪花模型的特点是贴近业务,数据冗余较少,但由于表连接的增加,导致了效率相对星星模型来的要低一些

基本概念-元数据

元数据是描述数据的数据,其内容主要包括数据的格式、结构、约束、加工过程、部署情况等。

元数据管理包括元数据采集与关联、元数据信息维护、标准代码及术语信息维护等内容。对元数据的分析包括血缘分析、影响分析等。