有了Hive为什么还要用Impala?
| Hive | Impala | |
|---|---|---|
| 架构类型 | 主要是是基于 MapReduce 最近开始支持可插性执行引擎如Spark、Tez等。 | 大规模并行处理MMP,大量使用RAM。 |
| 底层语言 | Java | C++ |
| 主要使用者 | 数据工程师 | 数据分析师和数据科学家 |
| 优点 | 错误容忍度高,可以实现超大事实表之间的连接。 | 错误容忍度低,主要用于分布式查询,非常适用于星型模式连接。 |
| 支持的文件或数据格式 | 支持hadoop文件及各种结构化和半结构化的格式 | 最适用于Apache Parquet新型列式存储格式 |
文中名词:MMP:massively parallel processing
RAM:随机存取存储器 Random Access Memory
