搜公众号
推荐 原创 视频 Java开发 开发工具 Python开发 Kotlin开发 Ruby开发 .NET开发 服务器运维 开放平台 架构师 大数据 云计算 人工智能 开发语言 其它开发 iOS开发 前端开发 JavaScript开发 Android开发 PHP开发 数据库
Lambda在线 > 探索互联网 > 百度Tera分布式存储

百度Tera分布式存储

探索互联网 2019-02-11
举报

当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放


分布式存储,最近一直在调研分布式存储,分布式存储应该关注哪些点,什么样分布式存储是符合业务需要的?当节点出问题时怎么进行新节点补充?怎么知道集群整体情况,节点内存情况,节点cpu情况、缓存情况、负载情况、连接情况?怎样进行相应监控以及报警?



分布式存储设计哲学有两种,一种是主从事,元数据存在统一位置,Google设计分布式存储大多采取这种方式。还有一种是无中心式,3.0版本redis官方集群方案采取无中心学习方式构建集群,和Google方式比属于另一种设计方式。


线上应用开源存储,从业务角度看,有几个要求,性能是重要指标,达不到性能指标很多事情可能无从谈起,一票否决。直接就可以不用继续去花费时间研究了。


性能之外,稳定性是一个重要指标,对于互联网公司,面向普通用户,稳定性关系着用户核心体验,不稳定对于业务是灾难性的不可接受的,稳定是性能之外强指标,稳定要能7*24小时持续稳定除了机器坏之外,软件本身需要相当稳定。


稳定之外就是怎样进行运维管理,主要包含扩容、缩容、集群负载监控、集群流量监控、集群管理中心以及集群异常时报警怎么做?这些是实际应用中遇到核心问题,能够有这些才能把存储用起来,开源方案中不包含的话就要看怎么补充上,用命令行方式管理?


分布式存储要入大量数据,节点数据过多就需要进行扩容,扩容操作方式,以及扩容本身对于线上业务性能影响,性能影响过大是无法使用的,因为会导致线上业务性能变差,但是可以从业务层面解决这种问题,摘除这种存储,扩容完成后在打开,类似于一种降级方案。


在有就是缩容也可以是多个小的存储节点合并,合并后可以减少不必要资源浪费,提升资源利用率,与上面问题类似,也是面临合并时怎么样避免资源浪费。


集群负载均衡,读的时候比如突发热点事件,突然导致某个、或者某几个节点读取压力增大,这时动态调整资源减轻节点读取压力。这也是分布式存储重要一个点,也影响到存储能否应用于我们的业务。


在有就是集群整体监控,有一个统一的监控平台能够监控,集群整体情况,节点cpu、内存、连接、流量等,并且能够对各个指标进行设置监控报警,有这种统一式管理平台,能够极大方便对于整个集群管理。


百度Tera分布式存储,大体上上边都包含,主要就是集群监控这块没有看到相关信息,需要在持续调研,分布式存储从应用角度,大概都是面临上述相关问题,可以分享一下你用分布式存储的一些情况以及心得体会。


版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《百度Tera分布式存储》的版权归原作者「探索互联网」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458

文章来源: 阅读原文

相关阅读

举报