分享

Apache 顶级项目的 Hudi如何在数据湖上玩转增量处理

hyj 2020-6-4 16:37:05 发表于 经典文章 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 3246

Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的
摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵
化,5 月份,Hudi 晋升为 Apache 顶级项目。本文主要从 “增量处理”的角
度切入来谈谈 Hudi 对于数据湖的重要性。更多关于 Apache Hudi 的框架功
能、特性、使用场景以及最新进展等可关注 QCon 全球软件开发大会(北京
站)2020 获悉。
在大数据技术发展的整个历程中,Hadoop 算是稳稳地抓住了这一时代机
遇,成为了企业建设大数据基础设施事实上的标准。其中,支撑 Hadoop
生态的分布式文件系统 HDFS 顺势持有数据坐拥天下之利,几乎也顺其自
然地成为了事实上的大数据存储系统的接口标准。基于以上的两个坚实的
“标准”,Hive 作为在 Hadoop 体系之上以 HDFS 为存储的大数据数仓
的基础架构也一直是很多企业的不二选择,但天下却苦这套数仓架构久矣。
这其中的原因是多方面的,比如,HDFS 复杂的架构、高昂的成本,冷热分
层存储能力的缺失等问题以及长久以来旧版本的 Hive 无法支持真正意义
上的 Update/Delete 操作等。

于是,近些年随着云原生架构的兴起,我们看到了 Hadoop 逐渐式微,加
上现在拥抱低廉云存储的浪潮,业界涌现出多个跟 HDFS 接口兼容的拥抱
云厂商存储的数据湖框架试图改善上面的这些问题。
本文不打算对比各个框架的特性,孰优孰劣其实还得结合需求和场景来评
判,而且当下三个开源的数据湖存储框架 (Apache Hudi/Iceberg, Delta
Lake) 离成熟以及稳定的形态还有很长的一段路要走。本文会试图从 “增
量处理”的角度切入来谈谈它对于数据湖的重要性。

更多参考:
Apache 顶级项目的 Hudi如何在数据湖上玩转增量处理.rar (685.72 KB, 下载次数: 25)

已有(1)人评论

跳转到指定楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条