vlambda博客
学习文章列表

数据中台与数据仓库的区别?“数据中台”是个国内的热门概念吗?

内容来源:贲圣锋  推荐
链接:https://www.zhihu.com/question/329016316/answer/1380975823
来源:知乎

想要了解区别,我觉得得先知道这两个各自的定义是什么。

先说数据中台

它的起源我就不说了,相信大家或多或少都看过这个有趣的故事:
15年马云携高管访问supercell这个游戏公司,这个游戏公司为什么牛逼?就是因为它的员工不多,但是却造出了很多知名的游戏,原因就在于它的中台战略深入人心,如何像他们一样提高人效?这才是高管们关心的。
回到国内,中台的概念就被造出来了,从起名可以看出来,是处于中间位置,连接前后的作用,最终的目的是提高员工和企业的效率。
阿里事业部不下十几个,淘宝、天猫、 1688、聚划算、菜鸟物流,每个事业部都有独立的架构体系,对应各个的开发和运维,这会出现功能重复建设,数据格式不统一,口径不一致。
中台的出现就是为了解决这些重复造轮子的情况,打通各个业务系统的数据,有些费时费力的代码,写过一遍了,为什么还要再写呢?此处@各研发。
再拿字节跳动来说,很多人都觉得它是app工厂,造出了很多知名的产品如抖音、头条等,但是他们的研发背后,肯定有一套,和阿里一样的,合理的数据中台体系。



我总结一下,数据中台的3个价值:
第一个价值:数据平台化
数据中台是要打破重复造轮子的过程,不再每个团队搭建一套Hadoop、Spark这样的大数据组件;而是,从全公司的角度,整合这些工具,所有团队使用公司级别统一提供的大数据平台、开发工具、资产管理平台等。
第二个价值:数据服务化
数据中台要能打通烟囱式的数据体系,减少每个团队的数据“私货”,做到全域数据打通,构建公司级统一的数据仓库。
同时,也提供更方便的数据访问方式:比如数据API、可视化访问、自助提取等。
第三个价值:数据价值化
数据中台要能做到,让数据真正能产生价值,这是一种结合了数据平台和数据服务后,让数据持续为业务赋能的机制。比如,如何让数据分析结论能落地?数据分析效果反馈的路径是否顺畅等等。

再来说说数据仓库

在我看来,数据仓库就是用来进行数据分析的,因为企业数据量大到一定程度之后,说明该企业的规模也是非常大的,数据库在进行大量数据查询的时候效率较低。
如果每次分析都从数据库里取数,那么会非常麻烦,所以就有了数据仓库,每隔一段时间把数据库里面的所有数据放到数据仓库里分析。
数据仓库整合多个数据源,进行多维的分析,帮助高层管理者或者业务分析人员做出战略决策或商业报表,其架构一共有4层:
  • ODS层(原始数据层):存放原始数据,直接加载原始日志、数据,数据保存原貌不做处理。
  • DWD层(明细数据层):结构与粒度原始表保持一致,对ODS层数据进行清洗(去除空值、脏数据、超过极限范围的数据)
  • DWS层 (服务数据层):以DWD为基础,进行轻度汇总
  • ADS层 (数据应用层):为各种统计报表提供数据



两者的区别

先对两者的概念进行一个总结:
  • 数据仓库是利用数据平台提供的计算和存储能力,在一套方法论指导下建设的一整套的数据表
  • 数据中台包含了数据平台和数据仓库的所有内容,将其打包,并且以更优雅以及更产品化的方式对外提供服务和价值
然后你就会发现:数据中台包含数据仓库,数据中台可以将企业数据仓库建设的投入价值进行最大化。
数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。



数据中台也可以将已建好的数据仓库当成数据源,对接已有数据建设成果,避免重复建设。当然也可以基于数据中台提供的能力,通过汇聚、加工、治理各类数据源,构建全新的离线或实时数据仓库。
不过数据中台更加偏重于数据使用,较之于传统数据仓库的数据组织形式,数据中台的数据覆盖范围更广、数据关系和处理模式更复杂、数据使用方式更灵活,因而给企业内部数据使用人员的能力带来较大挑战。