分布式数据仓库-Hive_vlambda技术博客

一、Hive的产生背景

MapReduce进行数据处理分析门槛过高，需要JAVA面向MR API进行编程。思考：能否让用户更简单地从现有数据基础架构转到Hadoop上来？答案是可以的。

二、Hive简单介绍

（1）Hive是基于Hadoop的 数据仓库工具 ，可 将结构化数据文件映射为一张数据库表 ，并提供SQL查询功能，其将 SQL语句转换为Map Reduce任务运行 ；

（2）Hive 提供一系列数据仓库工具 ，将数据提取转化加载（ETL），是一种存储、查询、分析大规模数据的机制。

三、Hive架构介绍

基础概念：

（1）Hive元数据：表名、表的列和分区及其属性、表的属性，表的数据所在目录；

（2）解释器、优化器、编译器：将HQL语句转化成MapReduce语句；

四、Hive的特点

（1）查询语言：HQL

（2）数据存储：HDFS

（3）执行：MapReduce

（4）执行延迟：高

（5）处理数据规模：大

（6）索引：0.8版本后加入

五、Hive应用场景

Hive只适合做批量数据统计分析

vlambda博客
学习文章列表