推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 技术想要What > 读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》

读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》

技术想要What 2019-02-14


那到底什么是数据中台?

按照书中观点:云上数据中台定位于计算后台和业务前台之间,其内核能力是以业务视角出发,智能化构建数据、管理数据资产,并提供数据调用、数据监控、数据分析与数据展现等多种服务;承技术启业务,是建设智能数据和催生数据智能的引擎,支撑云上数据中台内核能力不断积累和沉淀的是OneData、OneEntity(又名OneID)、OneService三大体系的方法论。
举个例子,让我们看看阿里巴巴集团自己的数据中台是如何赋能业务的:

读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》

  • 最底层是各种计算与存储平台,提供基础的存储和计算能力支持。

  • 垂直数据中心对应的就是各个业务BU的数据入口,针对各个BU(淘宝、天猫、高德)的数据进行统一的规划、采集、同步、引入。

  • 公共数据中心对应的是OneData体系,这个OneData可以简单的理解为一份数据只存储一次。

  • 萃取数据中心对应的是OneEntity体系,通过算法和标签打通各个数据孤岛,使得高效的利用数据成为可能。

  • 再向上就是面向应用提供服务的主题式数据服务中间件,对应OneService体系。

  • 左边是数据资产管理工具,包括资产分析、资产治理、资产应用、配置管理、资产运营。

  • 右边是智能数据建设工具,包括数据仓库规划、数据引入、数据规范定义、数据建模、数据通用研发、数据连接萃取等技术。

  • 红色部分对应各种数据应用、包括服务阿里小二的全局数据监控、数据化运营、数据植入业务等;服务社会的媒体数据大屏、接待数据大屏、监控大屏等;面向阿里生态内商家的生意参谋等。

  • 阿里数据中台的服务对象包括:各个业务BU、阿里客户、阿里小二、社会大众。


数据中台是怎么来的?

按照我的理解,阿里的数据中台是被出来的。之前看了一本阿里巴巴数据委员会主席车品觉的书,书中说:

当时,我们犯了一个很久之后才发觉的错误,那就是,我们的做法跟一些美国公司的想法一致,即“不管怎么样,我们先收集数据,将来肯定有用”。我认为,在我职业生涯的这些年,最值得反思的就是这句话。因为没有一家公司可以让你无止境地收集数据,然后再使用,这根本是不现实的。

在2014年,阿里巴巴启动数据登月计划之初,首批数亿预算很快就将难以为继。预算去哪里了?
预算都被重复的数据和计算任务给吃掉了。
下图红框框选的是淘系数据中几乎完全重复存储的五张原始数据表,数据的量级全部都是PB级的。

读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》

计算任务上线容易,下线难,不仅带来大量的计算和人力维护成本,不一致的计算口径也对业务造成了各种困扰,此时的数据处理流向是混乱的、无方向性的,基本处于失控状态。

读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》

痛定思痛,阿里大数据的OneData体系逐渐成型。

读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》

第一步就是统一基础数据,基础数据由专门的团队负责,其他人无权染指。具体做法包括:

  • 阿里巴巴的所有数据应该在源头统一,即统一所有阿里巴巴业务的ODS数据基础层,并由一个团队负责和管控,其他团队无权复制数据基础层的数据

  • 在面向业务提供服务之前,由统一的团队负责从业务中抽象出源于业务而又不同于业务的数据域,再主导统一建设数据中间层,包括侧重于明细数据预JOIN等处理的DWD明细数据中间层、侧重于面向应用可复用维度和指标的DWS汇总数据中间层。特别是要由唯一负责团队将核心业务数据统一加入中间层。允许部分业务数据由独立的数据团队按照统一的OneData体系方法建设数据体系,ODS数据基础层和DWD+DWS数据中间层因其统一性和可复用性,被称为数据公共层。

  • 在面向应用提供服务时,业务团队会或深入业务线的数据团队有极大的自由度,只要依赖公共层,即可自由的建设ADS数据应用层。

  • 不管是数据公共层还是数据应用层,最终都是要面向业务提供服务。为了让业务部门找数、看数、用数方便,我们将OpenAPI升级为能缓解业务变化对数据模型冲击的包括方法论、数据产品在内的OneService体系,使其在提供统一的公共服务的同时,兼容面向个性化应用的个性化服务。

2015财年,批量数据计算总时长减少约50%,节约计算成本近亿元;批量数据直接下载/节约存储空间上百PB,节约存储上亿元
这一改,就达成了王总口中的两个小目标!
在成功的控制住了成本的飙升之后,阿里巴巴开始更加关注数据资产的价值,因为站在业务的角度并非要一味的降低成本,而是需要结合业务的收益来综合考虑数据的价值。

读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》


那么数据中台到底有什么价值?

数据的价值很大程度上是由关联而产生的,这就是OneEntity(或OneID)体系:
我们将若干个实体归拢到一起并命名为OneEntity。归拢虽然有据可依,但始终是基于大数据算法进行的设想,不可能与现实世界一摸一样,因此,其只可能是“无限逼近”。
根据实体归拢的效果及能否贴上“特定标签”,OneEntity在理论上可以分为一般质量OneEntity、高质量OneEntity和高价值OneEntity。
其中高质量OneEntity是指能够贴上“特定标签”的OneEntity,这里的“特定标签”会因业务和场景而异。不能够贴上“特定标签”的OneEntity,我们称之为一般质量OneEntity。而高价值OneEntity则是在高质量OneEntity的基础上提出进一步要求,不仅要能用标签来精确刻画,还要达到实际意义上的可精确触达。
以广告营销场景为例,如果你有10亿元营销预测,则对4个高价值OneEntity来说,平均每个OneEntity2.5元;对6亿个高质量OneEntity来说,平均每个OneEntity1.67元;对30亿个一般质量OneEntity来说,平均每个OneEntity0.33元;而对1000亿个未归拢的实体来说,平均每个实体0.01元。

假如需要给实体贴标签,就更加容易理解OneEntity的价值:
假设归拢前是1000亿条与人相关的实体数据,如果归拢为50亿个OneEntity,那么平均每个OneEntity有20条数据;如果归拢为30亿个OneEntity,那么平均每个OneEntity至少有30条数据;如果归拢到10亿个OneEntity,那么平均每个OneEntity有100条数据。用100条、30条或20条数据刻画一个OneEntity和用一条数据刻画一个实体,刻画效果孰优孰劣是很明显的。

读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》


即然数据中台这么有价值,那我们如何使用数据中台?

数据中台是通过OneService体系来对外提供服务的。OneService体系有以下特征:
(1)主题式数据服务、举个例子,假设用户想要看的是“会员”这个主题下的数据,至于“会员”主题背后有1000张物理表还是2000张物理表,他都不关心。而主题式数据服务要做的事,从方便用户的视角出发,从逻辑层屏蔽这1000张甚至2000张物理表,以逻辑模型的方式构建而非物理表方式。
(2)统一但多样化的数据服务、例如,双十一当天上百亿次的调用服务是统一的,但获取形式可以是多样的,可以通过API提供自主的SQL查询数据服务,也可以通过API提供在线直接调用数据服务。
(3)跨源数据服务、不管数据服务的源头在哪里,从数据服务的角度出发,都不应该将这些复杂的情况“暴露”给用户,而是尽可能地屏蔽多种异构数据源。

阿里巴巴大数据建设这一路走来,回看过往,不难发现,阿里巴巴的大数据之路经历了从无序到有序再到智能的艰难过程。那么,是否所有的政府、企业都需要再经历这一遍这么痛苦的过程,在耗费巨大资金、不断踩坑之后再建成一个强大的智能数据体系?

您会走怎样的大数据之路?


版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《读书时间《大数据大创新 —— 阿里巴巴云上数据中台之道》》的版权归原作者「技术想要What」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读