TiDB 联手 Apache Pulsar,释放大数据潜能
大数据时代,各类应用对消息解决方案的要求不仅仅是数据的流动,而是要在持续增长的服务和应用中传输海量数据,进行智能的处理和分析,帮助业务做出更加精准的决策。Apache Pulsar 与 TiDB 联合解决方案提供实时、高吞吐、稳定的数据输出,满足用户在大数据场景中对各类数据的应用与分析需求,广泛适用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等场景。
Apache Pulsar 简介与优势
Apache Pulsar(以下简称:Pulsar)是云原生的分布式消息流系统,采用计算和存储分层的架构和以 Segment 为中心的分片存储,具有更好的性能、可扩展性和灵活性,是一款可以无限扩展的分布式消息队列。目前,StreamNative 公司提供基于 Pulsar 平台的下一代流数据整体解决方案。
Pulsar 起初作为消息整合平台在 Yahoo 内部开发和部署,为 Yahoo Finance、Yahoo Mail 和 Flickr 等雅虎内部关键应用连接数据。目前,Pulsar 在雅虎全球的 10 多个数据中心提供服务,具备全网格复制能力,支持 140 万个主题,处理超过 1000 亿条消息,整体消息的发布延迟小于 5 毫秒。2016 年 Yahoo 把 Pulsar 开源并捐给 Apache 软件基金会(ASF),2018 年 Pulsar 毕业成为 Apache 软件基金会的顶级项目。
与大多数消息传递系统的单片架构不同,Pulsar 采用分层分片式的架构,服务层和存储层都能够独立扩展,以提供更好的性能、可扩展性和灵活性,这种设计对容器非常友好,使得 Pulsar 成为流原生平台的理想选择。
Apache Pulsar 系统架构
Pulsar 的企业特性包括消息的持久化存储、多租户、多机房互联互备、加密和安全性等。Pulsar 提供和 Kafka 兼容的 API,以及 Kafka-On-Pulsar(KoP) 组件来兼容 Kafka 的应用程序。KoP 在 Pulsar Broker 中解析 Kafka 协议,用户不用改动客户端的任何 Kafka 代码就能直接使用 Pulsar。
TiDB 与 TiCDC 简介
TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理 (HTAP)的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。在 4.0 之前,TiDB 提供 TiDB Binlog 实现向下游平台的近实时复制,在 TiDB 4.0 中,引入 TiCDC 作为 TiDB 变更数据的捕获框架。
TiCDC(TiDB Change Data Capture)是用来识别、捕捉和输出 TiDB/TiKV 集群上数据变更的工具系统。它既可以作为 TiDB 增量数据同步的工具,将 TiDB 集群的增量数据同步至下游数据库,也提供开放数据协议,支持把数据发布到第三方系统。TiCDC 是 TiDB Binlog 的升级方案 ,提供低延迟、高可用的数据订阅和同步服务,支持超大规模集群的水平扩展。
Apache Pulsar 与 TiDB 联合解决方案
在 TiDB v4.0.4 版本中,TiCDC 开放数据协议(Open Protocol )可以与 Pulsar 实现无缝对接,提供实时、高吞吐、稳定的数据输出,满足用户在大数据场景中对各类数据的应用与分析需求,广泛适用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等场景。
Apache Pulsar 与 TiDB 联合解决方案 架构图
借助 Pulsar 所具有的 GEO-Replication 功能,Pulsar 与 TiDB 联合解决方案可以为 TiCDC 的消费者带来地理位置无关的变更事件订阅能力。同时,Pulsar 集群的快速节点扩容、故障的快速恢复能力可以为 TiCDC 事件的消费方提供更优的数据实时性保障。
需求探索
伴鱼少儿英语
伴鱼少儿英语是目前飞速成长的互联网在线英语教育品牌之一,致力于打造更创新、更酷、让学英语更有效的新一代互联网产品。
石基信息
石基信息是一家以提供酒店业信息系统整体解决方案为主要业务的高科技公司,主要从事酒店信息管理系统软件的开发与销售、系统集成、技术支持与服务业务。
最佳实践
知乎
知乎是中文互联网综合性内容平台,以“让每个人高效获得可信赖的解答”为品牌使命和北极星。知乎在首页个性化内容推荐、已读服务等场景中使用 TiDB 作为核心数据库,通过 TiCDC Open Protocol 输出日志到 Kafka,进行海量的消息处理。随着业务量级的增长,在使用的过程中遇到了诸多因 Kafka 架构和历史版本实现上的限制而引发的问题。
单 Partition 数据量巨大的 Kafka 集群不论是扩容还是故障恢复都需要很长的时间,业务无法容忍长时间的不可用,所以只能选择牺牲数据、重建集群的方式来加快恢复速度。Kafka Topic 过重的资源消耗导致在单一集群上支撑数千乃至数万的 Topic 相对困难。早期版本 Kafka 不论是读取还是写入都需要发生在 Partition 当前活跃的 Leader 上,读写流量都很高的集群会对 Broker 产生非常大的压力。Kafka 的一些问题在新版本中得到了解决,但是因为协议版本差别太大,无法直接通过升级服务端的方式进行滚动升级。鉴于以上遇到的问题,考虑到 Pulsar 对原生跨地域复制(GEO-Replication)的支持同知乎未来基础设施云原生化的方向更加契合,知乎开始在一些业务中使用 Pulsar 替换 Kafka 。
知乎对 TiCDC 的核心模块进行了一系列开发工作(https://github.com/pingcap/ticdc/pull/751),把 TiCDC Sink 与 Pulsar 进行对接,实现 TiCDC 的数据同步到 Pulsar。Pulsar 与 TiDB 联合解决方案已经在知乎的 CMDB 项目中得以应用,解决了现阶段在 Kafka 上遇到的问题。
Pulsar 对跨地域复制(GEO-Replication)的支持为生产者和消费者提供了地理位置透明的连接,生产者在任意数据中心生产的内容可以供任意一个数据中心的供消费者使用。分层存储(Tiered Storage)为大量历史数据的保存、审计、流量回放、低频明细历史事件分析等需求提供更低成本的实现方式。从消费模式看从数据多个副本并发读取消息的能力,极大地提升了数据读取的扩展性。此外,延迟消息分发(Delayed Message Delivery)便于实现许多特定的业务逻辑,可用于替代一些相对陈旧的历史技术方案。
相关资源
1. TiCDC 实操指南:
https://docs.pingcap.com/zh/tidb/stable/manage-ticdc
2. Apache Pulsar 官方文档:
http://pulsar.apache.org/docs/en/standalone/
3. Apache Pulsar 与 Kafka 的对比:
* https://streamnative.io/blog/tech/pulsar-vs-kafka-part-1
关于 StreamNative
StreamNative 是一家围绕 Apache 顶级项目 Apache Pulsar 打造下一代流数据平台的开源基础软件公司,秉承开源是基础软件的未来这一理念,专注于开源生态和社区的构建,致力于前沿技术领域的创新,创始团队成员均是 Apache Pulsar 和 Apache BookKeeper 的核心 PMC 成员。
关于 PingCAP
PingCAP 成立于 2015 年,是一家开源的新型分布式数据库公司,秉承开源是基础软件的未来这一理念,PingCAP 持续扩大社区影响力,致力于前沿技术领域的创新实现。其研发的分布式关系型数据库 TiDB 项目,具备「分布式强一致性事务、在线弹性水平扩展、故障自恢复的高可用、跨数据中心多活」等核心特性,是大数据时代理想的数据库集群和云数据库解决方案。目前已经国内外近 1000 家用户将 TiDB 用于线上生产环境。
延伸阅读