Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!
Flink 与 Hive 生产级整合
一是它允许 Flink 用户将 Flink 本身的元数据,包括表、函数等,存储到 Hive Metastore 中。
二是它允许 Flink 使用 Hive Metastore 中已有的 Hive 元数据,使得 Flink 可以读写 Hive 的表。
代码示例:
https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/hive/hive_catalog.html#example
流处理
-
对 Flink 的实时数据和 Hive 的离线数据做 join -
通过 Flink 回填 Hive 的数据
Hive 版本兼容
复用 Hive 函数
加强读写 Hive 数据
更多的数据类型
后续规划
-
Hive 的 near-real-time streaming sink -
原生 Parquet 文件读取 -
额外的交互性 - 允许用户从 Flink 创建 Hive 的表和函数等 -
更好地开箱即用性 -
Hive 语法的支持