vlambda博客
学习文章列表

业务数据库、传统行业数据仓库、互联网行业数据仓库和数据湖的区别!

0x01 前言

最近朋友聊到了业务数据库、传统行业的数据仓库、互联网行业的数据仓库和数据湖的区别,关于这点,今天居士从范式的角度来分享。

0x02 从范式的角度思考

从设计上来讲:

  1. 业务数据库一般会服从第三范式,甚至第三范式以上
  2. 传统行业的数据仓库,一般是使用范式建模,服从数据库的第三范式
  3. 互联网行业的数据仓库,一般是维度建模,服从第二范式甚至第一范式,由于较多使用宽表,所以一般也不怎么考虑什么范式
  4. 数据湖,可以理解为无模式了,也就是schemaless。

从这个角度大家也就能看出来了,其实,这是一个从高强度模式到无模式的状态。

范式的程度越高,数据越规整,范式的程度越低,数据也就越不规范。就需要更完善的数据分析工具才能更好的使用数据,这也是为什么现在数据分析需要越来越强大的工具的原因之一。

因为在互联网公司里面,一般都是互联网类型的数据仓库,很多甚至都没有一个好的数据仓库,只是把数据像数据湖的方式丢在那里。

想要用好这些数据,就要有更完善的数据来支持!

0x03 数据湖

关于数据湖和数据中台这些概念,居士一般不会在文章中聊,今天遇到了,就先简单说一下数据湖。

目前市面上能买到的数据湖的书和文章,居士基本都读过了,只能说收获并不是很大,很多都是在泛泛地谈。举个例子,下面的截图是大家经常用来和数据仓库对比的一个图:

-w727
  • 里面提到的 能处理所有类型的数据,这点和互联网的数据仓库并没有什么区别,现在Hadoop、Ceph这些都可以作为数据仓库的底层存储的。基本遇到的数据格式也都可以处理了。
  • 足够强的计算能力,???没看到几篇文章详细说了比现在大数据平台的计算能力好到哪里去
  • 然后,有一些文章会提到数据治理什么的,居士只能说,有本事得提供一个好的生态才行啊,不是说治理就治理了。把原始数据仍在那里,必须要有一个好的配套的工具才能管理的,不是简单说几句的,另外,如果没有比较好的配套查询工具,简直就是数据沼泽了......

0x04 关于数据湖的一些思考

最后,大家可以看看现在市面上对数据湖的讲解,仔细考虑一下这几个问题:

  1. 大家说的数据湖和现在互联网公司的数据仓库区别有多大?
  2. 能解决了哪些数据仓库遇到的问题?
  3. 大家所说的处理更多的数据类型,更好的数据质量,更好用的数据,怎么提供?

0xFF 总结

有了上面的吐槽,居士目前暂时认为数据湖就是把数据一股脑地扔在某个地方,不被表结构和范式这种所约束,相当的灵活。

再回到上面的话:从这个角度来看,其实,从 业务数据库到传统行业数据仓库,再到互联网行业数据仓库和再到数据湖,这是一个从高强度模式到无模式的状态。

范式的程度越高,数据越规整,范式的程度越低,数据也就越不规范。数据就越难用,也就越需要强大的数据使用工具。

期待,倡导数据湖的大佬们展示一下这种高灵活度和好用的数据使用工具。

关于数据仓库和范式的关系,可以参考居士的文章:《》

热门文章