开源组件【数据仓库系列06】
(一)通用框架概述
自底向上,与OSI类似,通用框架下的大数据体系有七层:数据源、数据收集层、数据存储层、资源管理与服务协调层、计算引擎层、数据分析层及数据可视化层。图示如下:
(二)数据收集层
数据收集层直接与数据源对接,负责采集产品使用过程中生成的日志,具有分布式、通用化等属性。由于实际场景中,大部分的数据源是零散的,因此采集到一起的难度较大,因而在设计上应该具备如下几个特点:
扩展性:能够配置多种不同的数据源,并且在遇到洪峰时不会成为系统瓶颈;
可靠性:数据在传输的过程中不能丢失(金融类数据尤其如此);
安全性:对于敏感数据,传输的过程要进行加密(密码、金钱等);
低延迟:由于数据源采集的日志通常规模庞大,因此应尽快的收集到存储系统中,不能产生积压。
在以Hadoop/Spark为代表的开源框架下,数据收集层通常有如下几种方案选择:
Sqoop:对于关系型数据库的全量导入比较通用;
Canal:对于关系型数据库的增量导入比较通用;
Flume:对于非关系型日志采集比较通用,例如文本日志等;
Kafka:分布式消息队列,类似于数据通道的概念,具有分布式高容错的特点。
(三)数据存储层
由于传统的关系型数据库在分布式、扩展性及高可用方面存在一定的瓶颈,因而很难适应大数据场景,不建议作为主要的存储和计算系统。数据存储层主要负责数据的落地和存储,包括了关系型数据和非关系型数据,并拥有中央化的调度体系。数据存储层主要有如下特点:
扩展性:作为数据落地的主要承载,数据的不断增长是长期的任务,因而集群的承载能力在一定时间内,总会达到瓶颈。因此,数据存储层需要考虑机器的扩展能力。
容错性:出于成本的考虑,数据存储层通常机器较多,因而需要建设在比较廉价的设备之上,这就要求系统自身有比较好的容错特性,在一台或多台机器出现故障时不会导致数据丢失。
存储模型:由于数据的多样性,数据存储层需要支持结构化、非结构化两种类型数据,因而需要支持文本、列存等多种数据模型。
由于分布式计算的概念由Google提出,在Google通常采用GFS、BigTable、MegaStore、Spanner等技术方案。在以Hadoop/Spark为代表的开源框架下,数据存储层通常有如下几种方案选择:
HDFS:分布式文件系统,GFS的开源实现,具有非常好的扩展性与容错性,并非常合适搭建在廉价设备上;
HBase:以HDFS为基础构建的分布式数据库,BigTable的开源实现,能够存储结构化与半结构化数据,支持行与列的无限扩展;
Kudu:Cloudera开源的运行在HDFS上的列式存储系统,具备扩展性与高可用性。
(四)资源管理与服务协调层
随着互联网技术规模的不断增长,不同技术与框架混用的情况越来越常见,对于运维、开发、资源利用等方面产生了巨大的挑战。为了将所有的技术框架部署在统一的平台上,共享机器资源,因而引入了资源管理与服务协调层。引入之后有如下几方面的优势:
资源利用高:能够有效的考虑程序数量与机器资源之间的平衡性,充分利用集群资源;
运维成本低:每种框架的运行情况都汇总到统一的运维平台上,对于人员的要求会更低;
数据能共享:同一份数据能够提供给不同计算框架进行计算,共享计算结果,降低存储与运算成本。
Google采用了Borg、Omega及Chubby三种方案来进行资源管理。在以Hadoop/Spark为代表的开源框架下,资源管理与服务协调层通常有如下几种方案选择:
Yarn:Hadoop框架中负责统一资源管理与调度的系统,能够集中管理机器资源(CPU、内存等),并且能够按照队列的方式调度任务;
Zookeeper:分布式协调服务,基于Paxos算法实现,提供分布式队列、分布式锁等复杂场景的解决方案。
(五)计算引擎层
计算引擎主要分为批处理和流处理两种场景:当数据量庞大并且实时性要求不高时,或者计算逻辑复杂时,采用批处理的方式计算数据,追求高吞吐量;当数据量适中且实时性要求高,且计算逻辑相对简单时,采用流处理方式计算数据,追求低延迟性。目前不存在实时处理复杂或庞大数据的计算框架。除了以上两种场景,近年来交互式处理方式越来越受欢迎,通过标准化的OLAP方式来组织和计算数据,在使用的便捷性上有巨大的优势。三种引擎的适用场景如下:
批处理:索引建立、数据挖掘、大规模复杂数据分析、机器学习;
流处理:广告推荐、实时报表、反作弊;
交互式:数据查询、报表计算。
Google提供了MapReduce、Dremel两种框架的实现原理,被开源框架采用并使用场景广泛。Pregel、Precolator、MillWheel也在开源场景下有所采用。目前Hadoop/Spark为代表的开源框架下常用的方案如下:
MapReduce:经典的批处理引擎,具有非常好的扩展和容错性;
Impala/Presto/Drill:分别由Cloudera、Facebook、Apache开源,使用标准SQL处理存储在HDFS上的数据,基于Google Dreml的开源实现;
Spark:通过DAG引擎,提供了基于RDD的数据抽象表示,主要利用内存进行快速的数据挖掘;
Storm/Spark Streaming/Flink:流式处理系统,都具备良好的容错和扩展性,实现的细节有所不同。
(六)数据分析层
直接产出结果的计算框架,但很多事情出于简化的考虑,可以通过计算引擎层的交互式框架来代替。通常情况下,出于平台端的技术考虑,该层采用Mysql、Oracle、Postgresql等关系型数据库的方案较多。按照通常的分类方式,有如下几种:
Impala/Presto/Drill:交互式计算引擎代替实现;
Mysql/Oracle/Postgresql:关系型数据库实现;
Hive/Pig:海量数据下的计算实现;
Mahout/MLlib:常用的机器学习和数据挖掘算法集合,最初基于MapReduce实现,现在大部分由Spark实现;
Beam/Cascading:统一了批处理和流式计算两种框架,提供了更高级的API来实现计算逻辑。
(七)数据可视化层
在大数据场景下,通常由前端插件来实现,如ECharts等,实现选择的方案较多。常见的展现方式有:折线图、柱状图、饼图、散点图、K线图、雷达图、热力图、路径图等。
数据可视化层设计了计算机图形学、图像处理技术等相关学科,并涉及到了交互处理、计算机辅助设计、计算机视觉、人机交互等多个技术领域。