vlambda博客
学习文章列表

数据湖vs数据仓库vs数据集市

数据湖、数据仓库、数据集市,这三个概念都是干什么的,有什么区别呢?这边文章可以为你解释下他们的异同。

数据湖

数据湖里存放了公司来自各个业务系统的数据,包括结构化数据、非结构化数据(比如日志、邮件、音频等),这些数据完全没有经过清洗,原始系统什么样,在数据湖中就怎样存储。

什么时候使用数据湖

  1. 公司业务数据非常多,需要廉价的存储来存储所有的数据。

  2. 公司非常想挖掘现有和历史的业务数据,但是还没有详细的规划如何分析。所以需要先保存数据,在考虑以后的分析,毕竟对于很多公司来说,数据就是巨大的资产。

数据仓库

数据仓库汇总有可能有很多维度数据的统计分析结果,取百家之长(各个数据源的数据),成就自己的一方天地(规划各种业务域的模型,指标)。

关于数据仓库的详细介绍可参考之前的一篇文章:

数据湖和数据仓库如何选择

如果您目前已经拥有完善的数据仓库,当然不建议删除它重新开始。但是,建议你在建设数据仓库的同时,实施一个数据湖。数据仓库可以继续照常运行,开始用新的数据源填充数据湖,可以将其用于收集所有业务系统数据,然后进行向下建设,沉淀部分数据到数据仓库。

关于数据湖和数据仓库的区别可以参考上一篇文章:

 数据集市

简单来说,数据集市是数据仓库的一个子部分,专门为特定部门/业务功能设计和构建的。

为什么选择数据集市

  1. 数据安全性:由于数据集市仅包含特定于该部门的数据,因此可以确保没有物理上的意外数据访问(比如财务数据等)。

  2. 高性能:由于每个数据集市仅用于特定部门,因此通过数据集市性能负载在部门内部得到了很好的管理,不会影响其他集市的分析工作。

数据集市类型
  1. 从属数据集市,从现有数据仓库构建从属数据集市。采用自上而下的方法,将所有业务数据存储在一个集中的数据集市,然后在根据需求进行分析。

  2. 独立数据集市,独立数据集市是一个独立系统,无需使用数据仓库即可创建,并且专注于一个业务功能。数据从内部或外部数据源中获取,经过精炼,然后加载到数据集市,直到业务分析结束为止。

  3. 混合数据集市,混合数据集市集成了来自当前数据仓库和其他运营源系统的数据。它结合自下而上方法,帮助企业集成数据集市。


 数据集市和数据仓库的区别

所以,对于大型企业来说,数据湖,数据仓库,数据集市都是共存的,针对不同的用户和部分使用。

拓展:

  1. 你们公司是如何保存使用数据的?

  2. 数据集市你认为有必要建立吗?