vlambda博客
学习文章列表

数据仓库、数据集市、数据湖和Data Vault是什么?


在过去的几年里,几乎每个人都在谈论大数据。希望以数据为驱动的企业必须整合一系列不同的基础设施。但是,大家很难理解数据湖和数据仓库在何处相遇,以及为什么甚至有些用户可能甚至可能需要一个Data Vault。

 

很简单,每一个概念都归结为找到一种有效的方法来摄取和管理用户的数据,用于今天的数据分析驱动的决策。

 

下文简单讲一下数据集市、数据湖、数据仓库以及Data Vault之间的关系以及它们的用途。

 

数据仓库

数据仓库或企业数据仓库是一个更精确的数据存储库。它对于为业务用户提供以可用格式访问正确信息的权限是非常宝贵的,并且可以包括当前和历史信息。当数据进入数据仓库环境时,会对其进行清理、转换、分类和标记,从而从法规遵从性的角度更易于管理、使用和监视,这也是实现自动化的基础。

 

当今企业所经历的数据量和速度意味着,在数据仓库中手动接收、处理这些数据,并确保以满足法规遵从性要求的方式存储和访问这些数据,在现代世界是不可行的。然而,随着企业不断地将数据作为报告和预测的来源,数据仓库是无价的。很重要的一点是,数据池不能仅仅因为感知到的数据提取就将更结构化的数据基础设施的角色包含进来。自动化可以帮助加快数据仓库中数据驱动决策的接收和处理速度,以快速跟踪价值实现时间。

 

数据集市

数据集市是数据仓库的一个特定子集,通常用于在一个特定的主题区域上管理数据,该主题区域需要在短时间内易于访问。由于其特殊性,它通常比构建完整的数据仓库更快、更便宜。然而,数据集市无法管理来自整个业务的数据,以通知业务决策。

 

数据湖

数据湖是一个庞大的数据集合,从未经组织或处理的原始数据到不同级别的数据集。这些数据从分析目的中得到的好处之一是:不同类型的消费者可以根据他们的需要访问适当的数据。这使得它非常适合一些较新的用例,如:数据科学、人工智能和机器学习,这些被许多公司视为分析工作的未来。这是一种将大量原始数据存储在可扩展存储解决方案上的好方法,而无需尝试传统的ETL或ELT(提取、转换、加载),在这种情况下成本可能很高。然而,对于更传统的分析,这种类型的数据环境可能会变得笨拙和混乱,这就是为什么架构师通常会求助于其他解决方案来在更结构化的环境中管理基本数据。

 

就数据基础设施内的定位而言,如果用户愿意,数据湖是其它数据基础设施的上游,可以用作更结构化方法(如数据仓库)的过渡区域,并提供数据探索和数据科学。

 

Data Vault

Data Vault建模是数据仓库的一种方法,它旨在解决将数据转换为数据仓库过程的一部分所带来的一些挑战。Data Vault的一个巨大优势是,它不评估哪些数据是“有价值的”,哪些数据不是,而一旦数据被处理并清理到Vault环境中,通常会做出此决定。Data Vault可以灵活地管理这一点,并处理不断变化的数据源,这使得Data Vault方法被认为提供了“事实的单一版本”,而不是“真相的单一版本”。

 

对于拥有大型、不断增长和不同数据集的企业,数据仓库的数据保险存储方法可以帮助将海量数据驯服为一个可管理的、以业务为中心的解决方案,但建立起来可能需要时间。Data Vault自动化是确保组织能够交付和维护符合Data Vault 2.0方法论严格要求的Data Vault的关键组件,并且能够以实用、经济和及时的方式交付和维护Data Vault。

 

虽然每种数据方法都有细微的差异,但在整个组织中,每种方法都在接收、管理和交付数据方面发挥着自己的作用。当IT经理和业务负责人试图制定如何最大限度地利用大数据的战略时,了解它们是如何结合在一起的是一个有价值的工具。自动化等技术可以帮助加快这些实践的建立和管理,并可以帮助企业充分利用其基础设施。


海上领航

陆上开车

IT老船长

Arthur老师



觉得不错,扫码关注一下呗?