vlambda博客
学习文章列表

Hadoop时代落幕,谁是大数据时代新宠?

随着2022年3月——这个Cloudera宣布停止对CDH技术支持日子越来越近,那些已经部署CDH和其他版本Hadoop的企业面临一个迫切的问题:自己原来部署的Hadoop怎么办?是继续延用还是迁移到其他大数据平台?如果要迁移,迁移到哪个大数据平台?
众所周知,CDH是市场上最受欢迎的免费Hadoop版本之一。目前,市场上免费Hadoop版本主要有三个,分别是Apache版本(开源社区版,也是最原始的版本,其他所有发行版均基于这个版本进行改进)、Cloudera版本(简称CDH)、Hortonworks版本(简称HDP,2018年Cloudera与Hortonworks合并后归属于Cloudera)。Cloudera对HDP的技术支持已经于2021年12月结束,Cloudera 还宣布今后将不再推出新版本的CDH和HDP,也就是这两个Hadoop版本不会再演进了。这就意味着,今后企业想要部署免费Hadoop平台只能选择社区版本,显然这会提高Hadoop部署和运维的难度和技术门槛。
另一方面,大数据市场新生力量已经崛起。Snowflake于2020年成功上市,成为美股当年最大的IPO,Snowflake的市值也超过330亿美元。Databricks来势更猛,2021年2月Databricks 获得10亿美元的G 轮融资,公司的估值达到了280亿美元。7个月后,Databricks再次宣布获得16 亿美元 H 轮融资,Databricks的估值飙升至380亿美元,是当初Cloudera最火时候的估值近10倍。这两家公司都是大数据领域的新晋“网红”,新生代已经崛起,Hadoop之后谁会成为大数据时代新的代言人?
01
Hadoop之潮起潮落
Hadoop是一个开源的分布式大数据处理框架,一直以来几乎就是大数据代名词。Hadoop诞生于2006年左右,当时爆发性增长的海量数据、人们对数据价值的普遍认可,源源不断地推动了企业对大数据处理的需求,而传统的数据处理方面无论是存储容量、读写速度、计算效率还是成本都越来越无法满足用户对海量数据的处理需求,Hadoop应运而生。
建立在开放架构上的Hadoop大大降低了大数据的门槛。Hadoop以分布式文件系统HDFS和MapReduce算法为核心,为用户提供了底层细节透明的分布式基础架构,可以基于通用硬件实现海量数据的分析和处理。由于有Google和Yahoo两大巨头的背书,Hadoop很快得到了市场的认可。一时间,市场上出现了众多Hadoop相关的创业公司,Cloudera、Hortonworks、MapR是其中最有影响的三个,被称为“Hadoop三巨头”:2008年Cloudera成立,2009年MapR 成立,2011年Hortonworks 成立。
当时业界普遍看好Hadoop的市场前景,这些公司的早期融资非常顺利。特别是2014年,Hadoop行业迎来高光时刻,Hortonworks成功上市,Cloudera也是风头正劲,获得Intel 7.5亿美元的投资,Cloudera的总估值曾达到41亿美元,成为当时未上市的大数据公司里面最为闪耀的一个。据报道,上市前Cloudera共获得了超过10亿美元的融资,Hortonworks 获得了2.48亿美元融资,MapR虽然一直没有上市,先后融资也近3亿美元。
不过,即使在三巨头的高光时刻,围绕Hadoop的争议一直不断。早在2013年,Gartner研究总监Svetlana Sicular就曾发表文章称,“大数据正处于新技术厂商炒作周期和用户预期的顶峰,但是Hadoop的过时和用户失败案例不断增多意味着大数据泡沫即将破裂。”
后来“Hadoop三巨头”的发展都不太顺利,争议也一直无法平息。2018年10月,无法实现盈利的Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东获得Hortonworks 60%的股份。2019年,HPE宣布收购MapR 的资产,收购金额未对外公开。此前MapR已经陷入财务困境,对外表示再没有融资将面临倒闭的命运。
合并后的Cloudera做出了一些战略调整,其中包括对CDH/HDP的支持政策。Cloudera宣布在2022年3月停止CDH、HDP的技术支持和版本更新,还宣布不会再推出新版本的CDH和HDP。另外,Cloudera的代码开源政策也做了调整,从2021年年初开始就已经停止了免费下载CDH、HDP。
还有一个值得注意的细节,Cloudera悄悄地去除了自己身上的Hadoop标签。今天,打开Cloudera官网已经很难再找到Hadoop这个词,在对外宣传中Cloudera给自己的定位是一家企业数据云平台公司,而不再是一个Hadoop技术供应商。Cloudera的主打产品也从原来的CDH换成了CDP(Cloudera Data Platform)。虽然CDP延续了CDH 的版本号(CDP 7)。但CDP与CDH之间并不是产品迭代的关系,而是全新的产品。另外,CDP和CDH、HDP一样,CDP不会有免费的开源版本下载,也不会对外免费提供开源代码。
Cloudera是Hadoop社区的“顶梁柱”,拥有CDH、HDP这两个市场上最受认可的开源发行版,Cloudera的一举一动对Hadoop影响不言而喻。Cloudera对CDH、HDP政策调整意味着今后要用免费的Hadoop基本只有Apache社区版了,而社区版无论稳定性和安全性与CDH、HDP都不在一个水平上,如果要用于生产环境需要进行多个模块的集成和大量二次开发,这个工作对技术人员要求非常高。可以预料,未来Hadoop的社区热度和应用会受到不小影响,这也是人们对Hadoop的未来前景产生担忧的原因所在。
02
Hadoop为何受到质疑?
应该说,Hadoop一直在不断调整以满足用户需求。那么,Hadoop从一个人人看好的大数据平台到如今人们开始忧心忡忡,担忧其未来,这中间到底发生什么让人们对Hadoop的发展前景来了一个彻底大扭转?
从最早期Gartner的唱衰到今天人们对Hadoop的担心,最为集中的一点是Hadoop的技术复杂性,这个技术复杂性提升了学习难度,带来了人才的不足,也带来了Hadoop项目的部署和实施效果不理想,使得不少项目最后无法兑现企业预期的各种商业价值。
今天打开Hadoop官网,我们可以看到其核心模块有四个:文件系统HDFS、资源调度YARN、计算引擎MapReduce和通用库,但光有这四个模块基本无法应用在生产环境中,要真正完成一个任务还需要借助很多其他模块的协助,比如Hive、HBase、Pig、Spark、Kafka、Zookeeper等。
实际上,在Hadoop生态体系之下至少有30个以上开源项目,为了完成一个生产项目需要对多个开源模块集成。这也正是CDH、HDP广受认可的一个重要原因,因为它们完成了模块之间的预集成,让用户免去不少集成之苦。即使这样,作为开源项目的Hadoop的部署和实施都高度依赖工程师的技术能力,而如此这多的模块要都精通对技术人员要求非常之高,这些都导致Hadoop的高复杂性而屡屡受到诟病。
大数据商业价值的实现达不到预期,很大程度上还与大数据项目本身的复杂性有关。Hadoop管理的是几十台或者成百上千台服务器组成的集群,计算环境的复杂性前所未有。同时,大数据项目从一开始就是探索性和创新性的,本身就具有很大不确定性。这一点和以提高效率为主要目的传统应用不同,传统应用只要部署下来,其效果基本是可以预料的。再加上有不少企业是看到大数据热就跟风,本身对如何做还没有想好,这直接推高了大数据项目的失败率。
对Hadoop的第二个批评是其技术过时,主要指MapReduce只能进行批处理,无法处理实时应用。MapReduce的确有这方面的弱点。实际上,这一点如今已不是一个问题,每个技术都有自己最佳的适用场景,如果要实时处理可以用Spark,要处理流数据有Flink,这些都可以在Hadoop框架之下很好地进行集成。Hadoop萌芽于2004年,2008年左右以Hadoop之名被开源,其核心技术也诞生于那个时代,用今天的需求来要求Hadoop并不合理。而且,Hadoop本身也不断演进,比如积极拥抱Spark、Kubernetes、Kafka等,为企业提供一个更好的大数据平台框架。
唱衰Hadoop的第三原因是云计算的崛起。众所周知,HDFS是Hadoop最为核心的两个模块之一(另一个是MapReduce),也是Hadoop的根基。而云服务的崛起使得以S3为代表的对象存储开始流行,云服务商结合对象存储推出的各种Hadoop云服务,相比于传统方式部署的 Hadoop更简单易用。比如AWS的Elastic Map Reduce (EMR)非常简单,而且与底层S3存储完全集成,具有较低的购置成本并且更便宜。
应该说,这的确是一个重要原因,看看今天大出风头的Snowflake和Databricks,它们提供的云服务这种商业模式无疑是成功的重要原因。Gartner曾预计,到2023年,75%的数据库都会跑在云平台之上。当然,这只是就趋势而言,当下Hadoop主要面向的还是拥有海量数据的私有云环境,金融、电信以及部分互联网才是Hadoop真正的重度用户,它们对大数据应用需求的复杂性是云服务商比较难满足的,一般来说其应用很难迁移到公有云上。
其实,经过多年的发展,在Hadoop生态体系中很多模块已经被新的模块替换,比如Spark替代MapReduce、S3替代HDFS、K8s替代Yarn,而完成了这些替代之后的Hadoop也早就是不是原来的Hadoop了。
应该说,和所有创新技术一样,Hadoop也有自己的生命周期。当IT环境发生了变化,比如,今天云计算环境正在成为企业标准IT环境,早期Hadoop所强调的存算一体正在被越来越多的存算分离场景所取代;实时数仓、湖仓一体正在成为行业趋势的时候,Hadoop虽然自己也在与时俱进,终究会被更新、更好的技术替代。当然,这种替代是单就Hadoop软件本身而言,如果从广义的角度而言,Hadoop生态依然生机勃勃,比如Spark、Kafka等今天就非常流行。
03
后Hadoop时代,大数据平台如何选?
今天,大数据市场正在蓬勃发展,根据IDC发布的《2021年V2全球大数据支出指南》中的最新预测,全球大数据市场的IT投资规模有望在2025年超过3500亿美元,五年预测期内(2021-2025)实现约12.8%的复合增长率(CAGR)。中国大数据表现有望更好,市场五年CAGR约为19.7%,增速领跑全球。另外,2021年11月30日,工信部发布关于印发“十四五”大数据产业发展规划的通知(简称《规划》),《规划》提出要保持产业保持高速增长,到2025年大数据产业规模突破3万亿元,年均复合增长率保持在25%左右。
大数据产业的发展必然带来对大数据平台的需求,面对强劲的市场需求,在后Hadoop时代,我们该选择什么样的大数据平台?特别是那些已经部署了CDH、HDP和各种Hadoop版本的用户怎么办?
如果公司技术实力够用,当然还是可以继续跟踪Hadoop社区版本,结合社区和自己的技术力量来解决各种难题,特别是如果大数据平台能够满足目前自己需求的前提之下。但是,对于更多普通企业用户,自己的技术实力不够,付费寻求技术支持可能会是更好的选择。好在目前在Hadoop这个大数据生态体系之中,有不少颇有技术实力的第三方提供自己的Hadoop版本和服务,比如华为、阿里云等。
而对于那些已经部署Cloudera的CDH和HDP企业而言,选择升级到Cloudera的新一代数据云平台CDP也是一个不错的选择。CDP是Cloudera2019年面向云环境推出的一个大数据处理平台。根据Cloudera大中华区技术总监刘隶放的说法,CDP可以提供六大能力:第一个是提供数据中心(Data Hub) 的能力,也就是提供一个基础性的集中存放数据、管理数据的能力;第二个是Data Flow & Streaming,包括用于数据收集和流式的实时数据处理的一整套产品。第三个是Cloudera Data Engineering,主要是用来进行批量数据处理。第四个是ClouderaData Warehouse,也就是数据仓库,可以替换原有的传统数据仓库。第五个是Operational Database,基于HBase等一些实时的非结构化的数据库,提供互联网级别的对外服务。第六个是机器学习的平台。
“Hadoop的解决方案技术栈很重,客户拿来还需要定制,门槛高。今天,我们做出了改变,目的是要能让业务部门也能用起来,为此增加方案通用性,让客户尽量少定制,另外,我们也交付基于云的数据服务,通过编排的方式去做数据服务。”刘隶放介绍说。
他说,CDP的一个特点是能同时支持私有云环境和公有云环境部署,目前Cloudera已经与阿里云达成合作,在阿里云上就可以获得云版本的CDP,用以对企业的大数据进行全面的分析和管理,这对部分技术能力不足的客户无疑具有很大吸引力。
04
结束语
每项技术都有自己的生命周期,Hadoop已经走过了高峰期,但Hadoop所代表的大数据生态还在蓬勃发展。这些年围绕Hadoop已经构建起来一个完整的生态,即使企业没有用Hadoop,但Hadoop的很多技术理念,比如Hadoop松耦合的架构体系、建立在通用硬件平台上的分布式系统设计,以及开放的数据标准和开源技术,早就超越了十几年前的HDFS、MapReduce 的范畴,在更多新兴技术中体现。“一鲸落,万物生”,Hadoop时代不在,但其理念还会在一个比过去更广阔、更有能力的生态系统中继续生生不息乃至发扬光大,从这个意义上说,Hadoop将长存。