vlambda博客
学习文章列表

数据仓库系统有哪三个工具层


【数据仓库系统的三个工具层】数据仓库系统通常采用3层的体系结构,底层为数据仓库服务器,中间层为OLAP服务器,顶层为前端工具。具体如下:

(1)数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息,等等。


(2)数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。


2、OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。


3、前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具,以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。


工具包括单不限于:

报表展现:BI报表工du具 BIEE、BO、COGNOS等

ETL数据抽取转换处理工具:datastage、informatic、ssis、kettle

底层数据库:oracle、db2、sqlserve 还有essbase、greenplum等数据仓库专业数据库

数据仓库架构分层 ODS、DW、DM ,不过落地实施的时候结构就不是看起来这么简单了。


          当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分版析处理OLAP(On-Line Analytical Processing)。OLTP是传统权的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。


数据仓库一般分为ODS层DWD和DWS层应用层

  • ODS层:数据仓库源头系统的数据表通常会原封不动地存储一份,这成为ODS(Operation Data Store)层。它们是后续数据仓库层加工数据的来源,同时也存储着历史的增量数据或全量数据。

  • DWD和DWS层:数据仓库明细层(Data Warehouse Detail, DWD)和数据仓库汇总层(Data Warehouse Summery, DWS)是数据平台的主体内容,这两个层的数据是ODS层数据经过ETL清洗、转换、加载生成的。

  • 应用层(ADS):应用层主要是各个业务方或者部门基于DWD和DWS建立的数据集市(Data Market, DM),一般来说应用层的数据来源于DW层,而且相对于DW层,应用层只包含部门或者业务方面自己关心的明细层和汇总层的数据。

数据仓库逻辑分层架构如下图所示:

图片来源于《离线和实时大数据开发实战》

ODS、DW、DM的区别

ODS:操作性数据仓库,最早的数据仓库模型。特点是数据模型采取了贴源设计,业务系统的数据结构是怎样的,ODS数据库的结构就是怎样的。所不同的是ODS数据库可以提供数据变化的历史,所以ODS数据库中每张表都会增加一个日期类型,表示数据的时点,将每天数据的变化情况都存下来,这样有利于数据的分析。

DW:数据仓库,点在大家都在说的就是这个。所不同的是每个行业的DW都有一个通用的数据模型,结构精简,扩展性强,应用性强,数据模型不像ODS那样会有很大的冗余。

DM:数据集市,以某个业务应用为出发点而建设的局部DW,为什么这么说?因为DW只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用,每个应用有自己的DM。所以DM可以基于数据仓库件建设也可以独立建设。