Insights | 数字化转型以及数据中心、数据湖和数据仓库的作用
数字化转型通常需要运营、历史和流媒体资源数据驱动的实时业务流程的支撑。我注意到,数据和分析领导者经常会互换使用“数据仓库”、“数据湖”和“数据中心”这三个术语,这可能会使那些试图理解其差异以及在数字化转型业务中扮演角色的非专业人士感到困惑。供应商常常将这三个术语比作竞争的手段,这进一步加剧了三者之间的混淆,从而导致为不合适用例部署错误的技术。
系统架构师和高管必须了解这些不同架构之间的差异、每个用例的最佳解决方案,以及这些架构如何与其他数据源(包括操作数据仓库、SaaS解决方案和流数据源)关联以支持现代数字化企业。否则,可能会为错误的任务部署架构,从而使在跨系统中利用数据变得更加困难或不可能。决策者也应该认识到,他们可以使用经过验证的开源解决方案来构建现代数据架构,在无需大量前期资金投入的情况下实现数字化转型。
数据仓库能够保存定义明确的结构化历史数据,以便支持快速运行和重复分析查询。结构化数据支持预定义的复杂(甚至是长时间运行的)查询,通常使用SQL,用于核心业务报告。数据仓库可用于仪表板,并且可以支持一些有限的即席查询。
Source google
将干净的、结构良好的数据插入到数据库中需要一个耗时的提取、转换和加载(ETL)过程。尽管这些经过净化和转换的数据被认为是高度可靠的,但提取、转换和加载所需的时间意味着数据仓库不适合支持依赖于最新操作数据的实时业务流程。
可以使用诸如Greenplum之类的开源解决方案来构建数据仓库。然而,企业经常将Apache Hadoop用于数据仓库,我认为它不适合用于数据仓库,这给许多公司带来了巨大的挑战。
数据湖包含来自多个源的结构化和非结构化数据。数据治理方面可能很弱,数据重复或冲突可能也很常见。数据科学团队通常使用数据湖来执行探索性分析,包括数据发现和可视化,以及机器学习模型训练。由于进入数据湖时数据是非结构化且未经过滤的,因此通常需要先对用于数据科学项目的数据进行清理,然后再进行分析。数据湖通常用于保存不再驻留在操作数据存储中的历史数据。
Source google
Hadoop是用于构建数据湖的最常见开源解决方案,充当Apache Spark以及其他用于机器学习和深度学习模型训练的开源解决方案的数据源。
数据中心聚合来自多个数据源的数据,这些数据源可能包括数据仓库、数据湖、操作数据存储、SaaS应用程序和流数据源。数据中心中的数据可供给一个或多个业务应用程序使用。数据中心已经在主数据管理等应用程序中使用多年,可以聚合多个系统的客户数据,识别丢失数据,纠正所有数据源之间的不一致和不准确性。
Source google
由实时业务流程驱动的数字转换基于历史数据、操作数据和流数据组合,需要一种被称为数据整合中心(DIH)的特殊数据中心。数据整合中心(DIH)聚合来自多个本地和基于云的系统的已定义数据子集,包括数据仓库、数据湖、本地业务应用程序、SaaS应用程序和流数据馈送。构建在内存数据网格(IMDG)(DIH的最常见形式)上的DIHs可以通过连接的业务应用程序将对内存数据所做的更改同步回相关数据源。IMDG通过在内存中缓存相关数据并并行处理查询来提供极高的性能。IMDG是一种分布式计算解决方案,只需向IMDG集群添加节点,即可为内存中的数据缓存提供巨大的可伸缩性。
当在内存中缓存相关数据时,DIH(数据整合中心)是一个高性能、可大规模扩展的数据访问层,能够支持实时业务流程。底层的IMDG通常支持一系列API,包括键值和SQL支持。
Source google
最受欢迎的DIH(数据整合中心)开源内存计算平台是Apache Ignite。它是我公司平台的基础;几年前,我们还向Apache Software Foundation提供了现在的Apache Ignite源代码。Apache Ignite可以部署为高性能、可大规模扩展的IMDG,具有统一的API作为DIH缓存,能够实现业务应用程序和数据存储的简单集成。
数据仓库、数据湖和数据中心如何协同工作?
金融机构通常提供多种服务:核心银行业务、信用卡、抵押贷款、理财、保险等。每项服务可能都有大量数据孤立地分散在操作数据中心、数据湖、数据仓库和SaaS应用程序中。每个数据存储在给定的业务单元中都有特定的用途,其中包含当前业务操作的业务数据和用于分析的历史数据。然而,该机构可能会受益于实时选择性地访问和处理来自多个业务部门的数据子集。
DIH(数据整合中心)可以覆盖所有的数据存储,并汇总单个客户的当前和历史信息,从而创建一个实时的360度视图。这种360度视角可以通过任何客户接触点(如移动应用或桌面浏览器),在客户访问任何账户时,为公司整个产品线的升级销售和交叉销售机会提供支持。或者DIH可以为客户提供所有业务部门中所有帐户的实时、单一视图。
结论
通过理解这些架构的作用,以及如何利用这些架构创建实时的360度客户视图,业务领导可以确保批准的项目能够最大限度地利用数据,并为企业的未来奠定正确的基础。了解成熟的开源解决方案支持现代数据架构的潜力,还可以使高管更加经济高效地进行数字化转型。第三方可以为这些开源解决方案提供企业级的支持和咨询,也可以提供解决方案的企业级版本,因此高管可以确信其已经在成本和风险之间取得了充分的平衡。
Source google
REDinsights是Spacesforce「空间原力」面向地产领域数字化转型的战略研究智库。我们持续观察全球不动产行业的数字化趋势,并对有关该领域数字化颠覆的热点议题展开研究、持续探索新知并提供解决方案咨询。
也许你错过了以下精彩内容