数据盛宴 | 企业如何搭建靠谱的数据仓库?
▲ 点击蓝字“荣之联”,关注荣之联品牌微刊
企业数据仓库则是企业实时在线分析的根基,它能打通企业的数据孤岛,为管理人员、数据分析师、一线员工提供最快、最准的数据。不夸张的说,企业数据仓库的质量,直接影响到企业数字化转型的成败。
何为靠谱的数据仓库
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。
数据仓库的主要功能是将组织经年累月所累积的大量数据,透过数据仓库进行管理,并使用联机分析处理、数据挖掘等各类分析方法,帮助决策者快速的从大量资料中分析出有价值的资讯,对外在环境变动做出快速回应。
靠谱的数据仓库是从用户使用的角度出发,能够满足用户的数据需求,交付周期会大量缩短,数据从采集、加工到分析都是准确合理的。无论是Teradata、Oracle、Informatica等技术建设,还是基于大数据平台建设,用户体验是衡量数据仓库的最终标准。
数据仓库的建设难点
在建设数据仓库的过程中,企业通常面临以下5个挑战:
需求在哪里,能否能够立项,是否存在业务数据的需求;
数据在哪里,需要的数据从哪里来,重点在于公司内部资源的协调;
数据仓库建设,重点要做好技术选型,现有团队和现有资源是否准备充足,建设节奏如何制定等;
数据仓库运维,数据仓库面对的是数据,建设完成后的运维,包括数据的管理、调度等是重中之重;
数据应用,满足用户的数据分析需求,需要具备相应的技术能力,比如数据分析工具的使用等。
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。简而言之,数据仓库的本质就是将公司现有的数据(rawdata)转化为能够为决策所用的数据。
技术架构
数据仓库的建模方法
随着我们从IT时代步入DT时代,数据积累量也与日俱增,同时伴随着互联网的发展,越来越多的应用场景产生,传统的数据处理、存储方式已经不能满足日益增长的需求。尽管数据仓库建模方法论是一致的,但由于所面临的行业、场景的不同,需要结合新的技术体系、业务场景进行灵活的调整,以快速响应需求为导向。
首先了解下业务系统数据仓库与数据仓库的差异点,业务系统背后的数据库的首要任务是支持订单的完成,而公司的数据仓库并不关心单一的订单数据,而是订单完成后产生的数据,对结果进行统计分析。
数据仓库通常采用维度建模。维度建模的优点包括:业务人员更容易理解;耦合度低,提高稳定性;可扩展性强。
维度建模示例:
如何搭建敏捷数据仓库
判断是否敏捷可以看交付的节奏,是季?月?周?还是天?
在建设敏捷数据仓库时,可以缩小交付目标,提高交付速度,这样可以锻炼团队对各阶段的建设经验,同时也能够提升用户的认可度。
当然,不同的公司团队规模和实际情况都不一样,在建设前要做好评估。
建设过程中的5个重要建议:
1.数据仓库一定要分层,至少2层;
2.尽早制定命名规范,对字段的熟悉程度可大力提升员工的工作效率;
3.尽量使用软删除(标记行的数据状态),避免硬删除;
4.对于缓慢变化的维度,使用拉链表;
5.派生指标要具有可解释性。
更多详情可观看直播回顾,识别图中二维码即可观看。
●
●
●
●