数仓01 | 数据仓库简述
数据库与数据仓库
OLTP与OLAP
概括来说数据库是面向业务OLTP,而数仓是面向分析OLAP
那OLTP以及OLAP又分别是什么呢?
联机事务处理OLTP(On-Line Transaction Processing),面向交易过程,支持数据增删改查,保存当前最新状态的数据,遵循ACID原则;
联机分析处理OLAP(On-Line Analytical Processing),面向分析,能反应数据的历史变化情况,一般不对数据进行更新操作。
数据库与数仓的关系
数仓从各个不同种类的业务系统中集成数据,而这些业务系统包含OLTP的数据库系统,数仓与数据库两者在架构中的示意如图所示:
数据库与数仓的区别
数仓的特点
通过数仓可以统一集成公司的数据,打破数据孤岛,集中管理数据,提供高效响应的数据决策。
面向主题:每个企业都有众多业务,每个主题对应一个业务流程分析领域,比如客户流失预警、货物管理等,不同于数据库对事务的处理
集成:数据从各个业务系统中采集数据,打破孤立的数据,纵观数据全貌,保持数据一致性、完整性、有效性、精准性
稳定:数据某一时刻的快照,不存在数据更新、删除操作,以查询分析为主
变化:数据库只保存当前最新状态,而数仓可以完整地展现数据的历史变化过程
大数据仓库
由于互联网业务的特性,决定新时代大数据仓库更关注灵活、快速响应和应对多变的市场环境,更加以快速解决业务、运营问题为导向,快速数据导入、快速业务接入,更不存在一劳永逸。
技术栈
相对于传统数仓的Oracle等关系型数据库技术栈,大数据仓库主要围绕Hadoop丰富的开源生态,包括数据同步、ETL、数据存储、计算引擎等功能组件。
常见组件