Hbase理论-前世今生
HBase前世今生
HBase是什么
起源:
HBase源于Google 2006年的论文Bigtable。由Powerset公司在2007年发布第一个版本,2008年成为Apache Hadoop子项目,2010年单独升级为Apache顶级项目。
设计目标HBase的设计目标:
存储并存储大型数据,使用普通硬件处理巨大的表,如数十亿行、数百万列的大型数据。
一句话概括HBase:一个开源的、分布式的、版本化、列式存储的非关系型数据库。
Hbase能做什么
批量存储,数据量大,实时查询
统计结果、报表类数据:通常需要配合Phoenix进行SQL查询。数据量较小,对查询的灵活性要求高,延迟要求一般。
原始事实类数据:如订单、司机乘客的GPS轨迹、日志等,主要用作在线和离线的数据供给。数据量大,对一致性和可用性要求高,延迟敏感,实时写入,单点或批量查询。
中间结果数据:指模型训练所需要的数据等。数据量大,可用性和一致性要求一般,对批量查询时的吞吐量要求高。线上系统的
备份数据:用户把原始数据存在了其他关系数据库或文件服务,把HBase作为一个异地容灾的方案。