信息世界(21) - 数据仓库 Data Warehouse
在计算机领域,数据仓库(data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。 数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,用于为整个企业的员工创建分析报告。
存储在仓库中的数据从运行系统(例如营销或销售)上传。这些数据可能会通过一个ODS数据库,并且可能需要进行额外操作的数据清理,以确保数据质量,然后才能在数据仓库中用于报告。
典型的基于提取、转换、加载(ETL)的数据仓库使用分级、数据集成和访问层来存放其关键功能。分级层或分级数据库存储从每个不同的源数据系统中提取的原始数据。集成层通过转换来自分级层的数据,将不同的数据集合在一起,通常将转换后的数据存储在ODS数据库中。然后将集成的数据转移到另一个数据库(通常称为数据仓库数据库),在这个数据库中,数据被分为层次组(通常称为维度),并被分成事实和聚合事实。事实和维度的组合有时被称为星型模式。访问层帮助用户检索数据。
数据的主要来源被清理、转换、分类,并提供给管理人员和其他商业专业人员用于数据挖掘、在线分析处理、市场研究和决策支持。 然而,检索和分析数据、提取、转换和装载数据以及管理数据字典的方法也被认为是数据仓库系统的基本组成部分。许多数据仓库的文献都使用了这个更广泛的语境。因此,数据仓库的扩展定义包括商业智能工具、提取、转换和加载数据到存储库的工具,以及管理和检索元数据的工具。
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。
数据仓库,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
数据库与数据仓库的区别
企业的数据处理大致分为两类:一类是操作型处理,也称为联机事务处理,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。另一类是分析型处理,一般针对某些主题的历史数据进行分析,支持管理决策。
操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。数据仓库在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。
数据仓库是一个过程
数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
主要的数据仓库产品
· Sybase - IQ
· Oracle - Oracle Database / Oracle Exadata
· TeraData - TeraData
· IBM - Red Brick
· Netezza - Netezza TwinFin
· NEC - InfoFrame DWH Appliance
· Microsoft - Microsoft SQL Server
· Pivotal - Greenplum
《信息世界》是讯特科技商学院与加拿大华人信息技术协会联合编著的系列文章,全面介绍全球信息通讯技术(ICT)产业的历史、现状、趋势、技术、产品、案例等,为信息通讯技术的创新发展提供深入的参考和解决方案。