“炼数成金”——带你了解企业数据仓库
01
数据仓库是什么
那么大一个小白
那么大一个小白
小猿,你知道数据仓库是什么吗?
小猿
数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
小猿
数仓的本质是数据的集成整合。
那么大一个小白
那它和数据库有什么区别呢?
小猿
数仓是一个抽象概念,涵盖了数据整合利用的全套方法论,例如分层设计、维度建模等等。
而数据库是实体概念,在数据仓库体系中负责落地实现各项能力。
那么大一个小白
那数仓和数据集市又有什么差异呢?这两个概念经常一起出现……
小猿
数据集市是数据仓库体系中的重要部分。主要负责向数据使用方提供加工整合好的数据。作为数据仓库的前端应用,数据集市的类型可以丰富多样。
小猿
介绍了这么多概念,我再带你看看数据仓库到底有什么用吧~
02
数据仓库的作用
企业级数据仓库(Enterprise Data Warehouse,即EDW),目的是整合企业全域数据,为企业经营决策提供数据支持。
厦航的数据仓库高效支持了跨业务、跨系统的数据整合,为管理分析和业务决策提供了可靠的数据支持,将公司的生产运营等业务信息转化为高价值、可获取的数据集合。
03
厦航数据仓库建设历程
厦航从2011年开始了数据仓库从无到有的建设过程,在九年的建设过程中,数仓架构历经以下三个阶段:
基于MPP的第二代数仓架构于2016年开始逐步取代第一代架构,随着大数据技术的发展,第三代数仓架构:MPP + BigData应运而生。
为满足大数据时代多场景、高时效性的数据分析应用需求,厦航于2019年开始了基于大数据平台的企业级数据仓库技术框架(即V3.0)的探索与实践——利用现有的大数据平台,实现数据缓冲层、模型层、汇总层和应用集市层的存储、查询、ETL处理和任务调度,以及实时计算、流计算组件技术的应用。
04
数据仓库的应用实践
随着数仓架构的不断优化,建设模式的日趋成熟,历经“数据入仓需求调研-入仓数据标准化-按主题分类存储-事实表+报表开发-每日跑批”的建设流程,越来越多的项目在数据仓库平台上“开花结果”。
其中,营销数据集市于2017年开始建设,历时2年多,集成了主数据、营销MIS数据库、运控系统等50多类数据来源。通过搭建客票、航班、OD、产品等营销预汇总宽表,从运力、运量、收入、成本、预售监控、渠道等多维度展开分析,该集市支持了客运信息网、网络排班系统、收益管理系统(在建)等应用系统建设。核心宽表数据处理从建设前的每天2小时提升至每天20分钟,助力营销收益决策迈向新台阶。
此外,在《CRM客户分析》项目中,数据仓库利用大数据平台集群算力,日均处理1.2T数据,在2.5小时内完成存量客户约20亿个指标的统计分析,高效地支持业务开展客户分析和精准营销。
在《机务可靠性分析系统》中,数据仓库合理管控报表加工口径及计算来源,整合相关指标100余个,提供相关报表70余个,反馈机务维修业务调整,辅助维修成本的精细化管理,大大提升了分析数据的可靠性和准确性,为机务业务数字化管理打下坚实基础。
05
展望未来
大数据时代的到来,新技术、新形势以及新的挑战极大地推动了各行各业数字化转型的进程,公司层面提出了数字化战略,重点围绕云计算、大数据、人工智能等方向开展创新研究和应用,营造了浓烈的创新氛围。数据仓库为企业数字化转型提供了有力的数据支撑,未来围绕企业数字化转型战略,厦航还会基于数据仓库建设成果来构建企业数据中台,拓展数据仓库服务能力,打造开放共享的数据服务,利用数据的力量进一步赋能公司在数字时代能够行稳致远!
图文 / 陈明焰
编辑 / 陈璐璇