业务数据库、传统行业数据仓库、互联网行业数据仓库和数据湖的区别!
0x01 前言
最近朋友聊到了业务数据库、传统行业的数据仓库、互联网行业的数据仓库和数据湖的区别,关于这点,今天居士从范式的角度来分享。
0x02 从范式的角度思考
从设计上来讲:
-
业务数据库一般会服从第三范式,甚至第三范式以上 -
传统行业的数据仓库,一般是使用范式建模,服从数据库的第三范式 -
互联网行业的数据仓库,一般是维度建模,服从第二范式甚至第一范式,由于较多使用宽表,所以一般也不怎么考虑什么范式 -
数据湖,可以理解为无模式了,也就是schemaless。
从这个角度大家也就能看出来了,其实,这是一个从高强度模式到无模式的状态。
范式的程度越高,数据越规整,范式的程度越低,数据也就越不规范。就需要更完善的数据分析工具才能更好的使用数据,这也是为什么现在数据分析需要越来越强大的工具的原因之一。
因为在互联网公司里面,一般都是互联网类型的数据仓库,很多甚至都没有一个好的数据仓库,只是把数据像数据湖的方式丢在那里。
想要用好这些数据,就要有更完善的数据来支持!
0x03 数据湖
关于数据湖和数据中台这些概念,居士一般不会在文章中聊,今天遇到了,就先简单说一下数据湖。
目前市面上能买到的数据湖的书和文章,居士基本都读过了,只能说收获并不是很大,很多都是在泛泛地谈。举个例子,下面的截图是大家经常用来和数据仓库对比的一个图:
-
里面提到的 能处理所有类型的数据,这点和互联网的数据仓库并没有什么区别,现在Hadoop、Ceph这些都可以作为数据仓库的底层存储的。基本遇到的数据格式也都可以处理了。 -
足够强的计算能力,???没看到几篇文章详细说了比现在大数据平台的计算能力好到哪里去 -
然后,有一些文章会提到数据治理什么的,居士只能说,有本事得提供一个好的生态才行啊,不是说治理就治理了。把原始数据仍在那里,必须要有一个好的配套的工具才能管理的,不是简单说几句的,另外,如果没有比较好的配套查询工具,简直就是数据沼泽了......
0x04 关于数据湖的一些思考
最后,大家可以看看现在市面上对数据湖的讲解,仔细考虑一下这几个问题:
-
大家说的数据湖和现在互联网公司的数据仓库区别有多大? -
能解决了哪些数据仓库遇到的问题? -
大家所说的处理更多的数据类型,更好的数据质量,更好用的数据,怎么提供?
0xFF 总结
有了上面的吐槽,居士目前暂时认为数据湖就是把数据一股脑地扔在某个地方,不被表结构和范式这种所约束,相当的灵活。
再回到上面的话:从这个角度来看,其实,从 业务数据库到传统行业数据仓库,再到互联网行业数据仓库和再到数据湖,这是一个从高强度模式到无模式的状态。
范式的程度越高,数据越规整,范式的程度越低,数据也就越不规范。数据就越难用,也就越需要强大的数据使用工具。
期待,倡导数据湖的大佬们展示一下这种高灵活度和好用的数据使用工具。
关于数据仓库和范式的关系,可以参考居士的文章:《》
热门文章