[AI工程论]数据中心VS数据湖VS数据仓库
关注:决策智能与机器学习,深耕AI脱水干货
作者 / Goasduff
来源 | Garnter
翻译整理 / 九三山人
数据中心(Data hubs)、数据湖(data lakes )和数据仓库(data warehouses)
数据中心、数据湖和数据仓库都是数据和分析领导者需要投资的重要领域,以支持日益复杂、多样化和分布式的数据工作负载。Gartner研究公司发现,57%的数据和分析领导者正在投资数据仓库,46%在使用数据中心,39%在使用数据湖。
数据和分析的领导者必须理解这三种类型结构的目的,以及它们在现代数据管理基础设施中可以共同发挥的作用,从而最好地支持特定的业务需求。
数据仓库,存储众所周知的结构化数据。它们支持预定义的和可重复的分析需求,可以跨组织中的许多用户扩展。数据仓库适合于复杂的查询、高水平的并发访问和严格的性能要求。
数据湖,收集未细化的数据(即原始形式的数据,具有有限的转换和质量保证)和从各种源系统中捕获的事件。数据湖通常支持数据准备、探索性分析和数据科学活动。
数据中心,是概念上的、逻辑上的和物理上的“中心”,用于在中央管理的(例如:和本地管理的数据(通常是一次性使用的数据)。它们支持数据的无缝流和治理。
核心区别
数据仓库和数据湖有一个共同的关注点——支持组织的分析需求。相比之下,数据中心并不关注数据的分析使用。它们不存储长期的详细数据。
它们支持数据共享,并对跨组织的各种应用程序和流程流动的数据应用治理控制。例如,数据和分析负责人可以使用数据中心来改进数据从业务应用程序到数据仓库或数据湖的交付。
这三种结构最好结合使用
虽然理解它们在架构中的不同角色很重要,但数据和分析领导者必须认识到这些结构组合使用时为组织带来的价值。例如,数据可以通过数据hub传递到分析结构(数据仓库和数据湖),数据hub充当中介和治理点。越来越多的组织正在应用数据中心架构作为跨业务共享和治理所有关键数据的焦点;例如,用更集中的体系结构替换点到点集成,以便在各种操作应用程序和流程之间同步关键数据。
数据仓库、数据湖和数据中心的选择不是一个非此即彼的事情,而是互为补充,现代数据管理基础设施需要是动态的——随着时间发展架构模式,启用新的连接并支持不同的用例。
交流合作