vlambda博客
学习文章列表

分布式数据仓库-Hive

          一、Hive的产生背景          

MapReduce进行数据处理分析门槛过高,需要JAVA面向MR API进行编程。 思考:能否让用户更简单地从现有数据基础架构转到Hadoop上来?答案是可以的。


          二、Hive简单介绍          

(1)Hive是基于Hadoop的 数据仓库工具 ,可 将结构化数据文件映射为一张数据库表 ,并提供SQL查询功能,其将 SQL语句转换为Map Reduce任务运行
(2)Hive 提供一系列数据仓库工具 ,将数据提取转化加载(ETL),是一种存储、查询、分析大规模数据的 机制


          三、Hive架构介绍          

基础概念:

(1)Hive元数据:表名、表的列和分区及其属性、表的属性,表的数据所在目录;

(2)解释器、优化器、编译器:将HQL语句转化成MapReduce语句;


          四、Hive的特点          

(1)查询语言:HQL

(2)数据存储:HDFS

(3)执行:MapReduce

(4)执行延迟:高

(5)处理数据规模:大

(6)索引:0.8版本后加入


          五、Hive应用场景          

Hive只适合做批量数据统计分析