推荐 原创 视频 Java开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发
Lambda在线 > 大数据观察 > 【数据库】新的数据库设计的诞生

【数据库】新的数据库设计的诞生

大数据观察 2018-10-03

大数据观察

了解大数据,关注大数据观察吧!




每个想了解最新大数据资讯的人,都关注了我

文 / 数据君



【数据库】新的数据库设计的诞生

我们现在拥有各种各样、参差不齐的海量数据。很少有数据完全符合预先设定的数据种类。而且我们想要数据回答的问题,也只有在我们收集和处理数据的过程中才会知道。

这种现实条件导致了新的数据库设计的诞生,它们打破了关于记录和预设领域的成规

预设场域显示的是数据的整齐排列。最普遍的数据库查询语言是结构化查询语言,英文缩写为“SQL”——它的名字就显示了它的僵化。

但是,近年的大转变就是非关系型数据库的出现,它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。

但是,一旦考虑到大幅度降低的存储和处理成本,这就是一个我们能够支付得起的公平交易。

【数据库】新的数据库设计的诞生

处理海量数据会不可避免地导致部分信息的缺失,我们不能假装生活在一个齐整的世界里

这本来就是有“损耗性”的,但是我们能从中快速得到想要的结果弥补了这个缺陷。略有瑕疵的答案并不会伤了商家的胃口,因为他们更看重高频率。

传统数据库的设计要求在不同的时间提供一致性的结果。比方说,如果你查询你的账户结余,它会提供给你确切的数目;而你几秒钟后查询的时候,系统应该提供给你同样的结果,没有任何改变。但是,随着数据数量的大幅增加以及系统用户的增加,这种一致性将越来越难以保持。

大的数据库并不是固定在某个地方的,它一般分散在多个硬盘和多台电脑上。为了确切保其运行的稳定性和速度,一个记录可能会存储在两三个地方。

如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所以地方的记录都更新,然而,当数据广泛地分布在多台服务器上而且服务器每秒钟都会接受成千上万条搜索指令的时候,同步更新就比较不现实了。因此,多样性是一种解决的办法。

最能代表这个转变的,就是Hadoop的流行Hadoop是与谷歌的MapReduce系统相对应的开源式分布系统的基础架构,它非常善于处理超大量的数据。

通过把大数据变成小模块然后分配给其他机器进行分析,它实现了对超大量数据的处理。

它预设硬件可能会瘫痪,所以在内部建立了数据的副本,它还假定数据量之大导致数据在处理之前不可能排列整齐。典型的数据分析需要经历“萃取、转移和下载”这样一个操作流程,但是Hadoop就不拘泥于这样的方式。相反,它假定了数据量的巨大使得数据完全无法移动,所以人们必须在本地进行数据分析。

【数据库】新的数据库设计的诞生

Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求精确的任务,它就比其他系统运行的快很多,比如说把顾客分群,然后分别进行不同的营销活动。

信用卡公司VISA使用Hadoop,能够将处理两年内730亿单所需的时间,从一个月缩减至仅仅13分钟。这样大规模处理时间上的缩减足以变革商业了。也许Hadoop不适合正规记账,但是当可以允许少量错误的时候它就非常实用。

接受混乱,我们就能享受极其有用的服务,这些服务如果使用传统方法和工具是不可能做到的,因为那些方法和工具处理不了这么大规模的数据。



主题 |新数据库设计

插图 | 网络来源




作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删


“嘿,长按二维码,跟我一起有趣”

我想给你一个理由 继续面对这操蛋的生活


版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《【数据库】新的数据库设计的诞生》的版权归原作者「大数据观察」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

关注大数据观察微信公众号

大数据观察微信公众号:shuju_net

大数据观察

手机扫描上方二维码即可关注大数据观察微信公众号

大数据观察最新文章

精品公众号随机推荐