华为云OBSA-HDFS组件正式进入Hadoop社区

vlambda
2021-01-25

华为云OBSA-HDFS组件正式进入Hadoop社区

近日，华为云OBS对象存储服务OBSA-HDFS组件代码完成了开源社区同行评审，已经正式合入Apache Hadoop社区，标志华为云存算分离大数据方案正式获得社区认可，客户可以通过社区获取最新的OBSA-HDFS组件版本，快速在华为云完成大数据平台的部署和使用。

OBSA-HDFS组件全称为HuaweiCloud OBS Adapter for Hadoop Support，利用OBSA-HDFS，客户可以在华为云上快速部署存算分离的Hadoop大数据平台，无需修改代码即可完成Spark、MapReduce、Hive、HBase等组件与华为云OBS对象存储服务的对接，并获得高性能的HDFS存储。

当然，除了客户端组件外，华为云OBS在服务端的Data Multi-Protocol功能为达成存算分离提供了技术保证。传统的对象存储服务不支持原生的文件协议，导致大数据场景下的rename需要通过拷贝和删除两个操作组合来完成，更无法对文件目录进行修改，而拷贝操作会消耗宝贵的IO资源且时延较高。

华为云OBS的Data Multi-Protocol支持POSIX文件语义，通过对元数据结构和操作的双重优化，可快速完成文件的rename。经过测试，在大数据场景下，对100MB文件进行rename操作，华为云OBS比传统对象存储性能提升10倍以上。

凭借着数量级的性能提升，华为云BigData Pro存算分离大数据解决方案使用OBS替代Hadoop的本地HDFS存储，让计算资源和存储资源完全解耦，独立扩容，让大数据分析的性价比平均提升35%以上。更可以构建云上统一数据湖，消除数据孤岛、降低数据共享难度、减少数据冗余、提升数据使用效率。

当前，华为云BigData Pro解决方案已经服务于斗鱼、美图、蘑菇街、货拉拉和长虹等行业知名客户。

未来，我们也将为Hadoop在公有云场景下的效率提升而持续努力。

Hadoop是Apache基金会的顶级项目，也是业界领先且使用最广泛的分布式系统框架，用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

HDFS是Hadoop实现的分布式文件系统（Hadoop Distributed File System），为海量数据提供高吞吐量、高扩展、高可靠和高容错性的存储。

从2006年成立以来，Hadoop改变了企业对数据的存储、处理和分析的过程，形成了一个极其丰富的技术生态圈。

了解更多

华为云斩获2020年存储风云榜三项金奖

华为云获“IPv6支持度优秀奖”，持续助推云网融合

华为云摘得NLPCC 轻量级预训练中文语言模型测评桂冠

点击“阅读原文”,获取OBSA-HDFS

vlambda博客
学习文章列表