vlambda博客
学习文章列表

数据百问系列:学习数据仓库该看什么书?

0x00 前言

关于数据仓库书的问题被太多小伙伴问到了,因此,即使本文已经发过好几次了,依旧要在数据百问系列中再次发一遍。已经看过本文的小伙伴可以不用再看了。

在我们十多个数据交流群中,大家经常会问有什么数据相关的书可以推荐,因此居士建立了一个共享文档,大家把自己认为不错的书推荐出来,并写上推荐语。

居士会定期从中选出一些不错的推荐书目,整理后分享给大家,所以就有了《好书推荐》系列,此为第一篇:推荐几本数据仓库的经典书。

-w1285

0x01 书籍推荐

每次推荐书不会太多,但是尽量做到每次推荐的都是值得读的~

《大数据之路:阿里巴巴大数据实践》

书名:大数据之路:阿里巴巴大数据实践

推荐人:木东居士

阿里的大数据最佳实践,基本上讲了阿里在大数据实践上的方方面面,特别是数据模型的设计和实践,理论和实践结合的比较好,是我目前看到最好的一本书。

该书可作为整个数据体系建设的参考书,从数据平台到数据仓库到数据应用,都有比较不错的讲解。另外,本书的很多论述可以用作方案设计、老板汇报、晋升答辩等,值得反复看。

《数据仓库工具箱(第3版):维度建模权威指南》

书名:数据仓库工具箱(第3版):维度建模权威指南

推荐人:木东居士

推荐原因:

维度建模是大师 Ralph Kimball 所倡导的, 这本《数据仓库工具箱》是数据仓库经典书籍,特别是维度建模相关的内容非常权威,目前市面上能买到的书,很少有比这个更权威的了。

优点:

  1. 实践性较强,基本所有的概念都有例子说明
  2. 易懂,语言通俗易懂

缺点

  1. 示例都是传统行业
  2. 还是有一些抽象的概念,零基础来读,可能要花点时间,毕竟经典的数据都需要一些上层次抽象的概念。

数据仓库(原书第4版)

书名:数据仓库工具箱(第3版):维度建模权威指南

推荐人:木东居士

推荐原因:

范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解。在数据仓库的模型设计中目前一般采用第三范式。范式模型由数据仓库之父 Inmon 提倡,而这本书就是 Inmon 所写。

这本书是我看的第二本数据仓库的书,个人感受是理论比较强,刚开始看基本就是一头雾水,然后当你做了一段时间后,再回头来看这本书会有很多理论指导,比如说元数据该怎么做,模型该怎么设计,参考性很强。

即使工作了一段时间后,来看这本书依旧感觉比较费劲儿,所以本书翻的比较少,只是偶尔想起来会看一下。但是,不可否认,这本书也是数仓领域的经典。

《大数据日知录》

书名:大数据日知录

推荐人:木东居士

推荐原因:

这本书主要偏向于各种大数据系统的原理,是居士翻的最多的一本技术书了,基本上把现在流行的大数据组件都介绍了一遍,深度和广度都有,每章内容后面也都有相应的论文推荐。

推荐这本书的原因就在于现在大部分互联网公司的数据仓库都是基于这一套大数据框架来的,更准确的来讲,大家其实都是先工程,后理论,因此这本书可以作为对大数据生态的一览。

0xFF 总结

数仓的书,大部分年代都比较久一些,新出的一些书可参考性并不强。关于数仓,大家可以参考上面的几本书书,结合居士写的一些数仓文章,还是比较稳的。

以后新推荐书会在本文的评论中推荐。欢迎持续关注本文。