【数据成长系列】什么是数据仓库?类型、定义和示例
什么是数据仓库
数据仓库(DW)是一个收集和管理不同来源的数据,以提供有意义的业务洞察力的过程。数据仓库通常用于连接和分析来自不同来源的业务数据。数据仓库是商业智能系统的核心,它是为数据分析和报告而建立的。
数据仓库系统也被称为以下名称。
-
决策支持系统(DSS) -
执行信息系统 -
管理信息系统 -
商业智能解决方案 -
分析性应用 -
数据仓库
数据仓库的历史
随着计算机系统变得更加复杂,需要处理越来越多的信息量,对数据仓库的需求也随之发展。然而,数据仓库并不是一个新事物,以下是数据仓库演变的一些主要事件
-
1960-- Dartmouth和General Mills在一个联合研究项目中,提出了维度和事实等术语。 -
1970-- Nielsen和IRI公司推出用于零售业销售的维度数据仓库。 -
1983-- Tera Data公司推出了专门为决策支持而设计的数据库管理系统。 -
数据仓库开始于20世纪80年代末,当时IBM的Paul Murphy和Barry Devlin开发了商业数据仓库。 -
真正的概念是由Inmon Bill给出的。他被认为是数据仓库之父。他写过关于数据仓库和企业信息工厂的构建、使用和维护的各种主题的文章。
数据仓库是如何工作的
数据仓库的工作原理是作为一个中央存储库,信息从一个或多个数据源传来。数据从事务系统和其他关系型数据库流入数据仓库。数据可以是
-
结构化的 -
半结构化 -
非结构化数据
数据经过处理、转换和录入,用户可以通过商业智能工具、SQL客户端和电子表格访问数据仓库中的处理后的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。通过将所有这些信息合并到一个地方,企业可以更全面地分析其客户。这有助于确保它考虑了所有可用的信息,数据仓库使数据挖掘成为可能,数据挖掘就是在数据中寻找可能导致销售和利润提高的模式。
数据仓库的类型
数据仓库主要有三种类型。
企业级数据仓库
企业数据仓库是一个集中式的仓库。它为整个企业提供决策支持服务。它提供了统一的组织和表示数据的方法。它还提供了根据主题对数据进行分类的能力,并根据这些划分给予访问权限。
操作性数据存储
操作数据存储,也叫ODS,无非是当数据仓库和OLTP系统都不能支持组织的报表需求时,所需要的数据存储。在ODS中,数据仓库是实时刷新的。因此,它被广泛用于存储员工的记录等日常活动。
数据集市(Data Mart)
数据集市:数据集市是数据仓库的一个子集。它是专门为某一特定的业务线而设计的,如销售、财务、销售或财务等。在独立的数据集市中,数据可以直接从数据源采集。
数据仓库的一般阶段
早期,企业开始相对简单地使用数据仓库。然而,随着时间的推移,数据仓库开始了更复杂的使用。
以下是数据仓库的一般阶段。
离线操作数据库
在这个阶段,数据只是将数据从操作系统复制到另一台服务器上。在这种方式下,复制后的数据的加载、处理和报告不会影响到业务系统的性能。
离线数据仓库。
数据仓库中的数据是定期从业务数据库中更新的。数据仓库中的数据经过映射和转化,满足数据仓库的目标。
实时数据仓库
在这个阶段,数据仓库中的数据会在业务数据库中发生任何交易时更新。例如,航空公司或铁路订票系统。
数据仓库的组成部分
数据仓库的四个组成部分是。
加载管理器。
加载管理器也被称为前部组件。它执行与数据提取和加载到仓库中的数据相关的所有操作。这些操作包括转换,为数据进入数据仓库做准备。
仓库管理器。
仓库管理器执行与仓库中的数据管理相关的操作。它执行的操作包括分析数据以确保一致性,创建索引和视图,生成去正则化和聚合,源数据的转换和合并,以及数据的归档和加工。
查询管理器。
查询管理器也被称为后端组件。它执行所有与用户查询管理相关的操作操作。该数据仓库组件的操作是直接查询到相应的表。
终端用户访问工具。
主要分为五大类
-
数据报表 -
查询工具 -
应用开发工具 -
EIS工具 -
OLAP工具和数据挖掘工具。
谁需要数据仓库
数据仓库是所有类型的用户所需要的。
-
依赖于海量数据的决策者 -
使用定制的、复杂的流程,从多个数据源获取信息的用户。 -
它也被那些希望通过简单的技术来获取数据的人所使用。 -
对于那些需要系统化的决策方法的人来说,它也是必不可少的。 -
如果用户希望在海量的数据上实现快速的性能,而这些数据是报表、表格或图表的必需品,那么数据仓库就会派上用场。
数据仓库是用来做什么的
以下是最常见的数据仓库应用的行业。
航空公司。
在航空公司系统中,它主要用于运营目的,如机组人员分配、航线收益分析、常客计划促销等。
银行业
银行业:广泛应用于银行业,有效地管理的可用资源。部分银行还用于市场调研、产品性能分析和运营。
医疗保健领域
医疗行业:医疗行业也使用数据仓库来制定策略和预测结果,生成患者的治疗报告,与保险公司、医疗救助服务等合作方共享数据。
公共部门
在公共部门,数据仓库被用于情报收集。它可以帮助政府机构维护和分析每个人的税务记录、健康政策记录等。
投资和保险行业
在这个行业,数据仓库主要用于分析数据模式、客户趋势,以及跟踪市场动向等。
供应链
在连锁零售行业,数据仓库被广泛用于配送和营销。它还有助于跟踪商品、顾客购买模式、促销活动,也可用于确定价格政策。
电信行业
在这个行业中,数据仓库被用于产品促销、销售决策和分销决策。
酒店业
该行业利用仓库服务来设计和估计他们的广告和促销活动,根据客户的反馈和旅行模式来确定目标客户。
实施数据仓库的步骤
解决与数据仓库实施相关的业务风险的最佳方法是采用以下三管齐下的策略
企业战略
技术选型,包括当前的架构和工具。确定事实、维度和属性,同时进行数据映射和转化工作。
阶段性的交付
数据仓库应该根据主题领域分阶段实施。相关的业务实体,如预订、计费等,应该先实现,然后再相互集成。
迭代原型化
与其大刀阔斧地实施,不如迭代开发和测试数据仓库。
步骤 |
任务 |
可完成的任务 |
1 |
需要确定项目范围定义 |
范围定义 |
2 |
需要确定业务需求 |
逻辑数据模型 |
3 |
定义操作性数据存储要求 |
操作性数据存储模型 |
4 |
获取或开发提取工具 |
提取工具和软件 |
5 |
定义数据仓库的数据需求 |
过渡数据模型 |
6 |
记录缺失的数据 |
待办项目清单 |
7 |
业务数据存储到数据仓库 |
D/W数据集成地图 |
8 |
开发数据仓库 |
D/W数据库设计 |
9 |
从操作数据存储中提取数据 |
D/W数据提取 |
10 |
加载数据仓库 |
初始数据加载 |
11 |
维护数据仓库 |
持续更新迭代与维护 |
实施数据仓库的最佳实践
-
拟定一个测试数据一致性、准确性和完整性的方案。 -
在设计数据仓库时,确保你使用正确的工具 -
不要在提取、清洗和加载数据上花费太多时间。 -
确保所有利益相关者包括业务人员都参与到数据仓库的实施过程中。 -
确保数据仓库是一个联合/团队项目,你不希望创建一个对终端用户无用的数据仓库。 -
为终端用户准备一个培训计划。
数据仓库的优点
-
数据仓库允许业务用户快速访问来自某些来源的关键数据,并将这些数据集中在一个地方。 -
数据仓库提供了各种跨职能活动的一致信息。它还支持临时报告和查询。 -
数据仓库有助于整合多种数据源,减少生产系统的压力。 -
数据仓库有助于减少分析和报告的生成时间。 -
数据仓库允许用户在一个地方访问来自多个来源的关键数据。因此,它节省了用户从多个数据源中检索数据的时间。 -
数据仓库存储了大量的历史数据。这可以帮助用户分析不同时间段的数据和趋势,从而做出未来的预测。
数据仓库的缺点
-
不是非结构化数据的理想选择。 -
数据仓库的创建和实施是一件很费时间的事情。 -
数据仓库可能会很快就会过时,需要不断的更新维护 -
数据仓库看似简单,但实际上,对于一般用户来说太复杂了。 -
尽管在项目管理方面尽了最大的努力,但数据仓库项目的范围总是会越来越大。 -
企业需要花费大量资源进行培训和实施。
总结
-
数据仓库的工作原理是作为一个中央存储库,信息来自于一个或多个数据源。 -
数据仓库的三种主要类型是企业数据仓库、操作数据仓库和数据仓库。 -
数据仓库的一般状态是离线操作数据库、离线数据仓库、实时数据仓库 -
数据仓库的四个主要组成部分是加载管理器、仓库管理器、查询管理器、终端用户访问工具。 -
数据仓库应用于不同行业,如航空、银行、医疗、保险、零售等。 -
实施数据仓库需要采用三管齐下的策略,即企业战略、分阶段交付和迭代原型。 -
数据仓库允许业务用户在一个地方快速访问一些重要的数据源。
参考资料:
What Is Data Warehousing? Types, Definition & Example