分享

Apache Kudu 1.4.0 中文文档

niliria 发表于 2020-9-2 09:59:24
这个刚好需要,感谢分享
回复

使用道具 举报

policy12 发表于 2021-2-12 11:57:00
近两年,KUDU 在大数据平台的应用越来越广泛。在阿里、小米、网易等公司的大数据架构中,KUDU 都有着不可替代的地位。本文通过分析 KUDU 的设计, 试图解释为什么 KUDU 会被广泛应用于大数据领域,因为还没有研究过 KUDU 的代码,下面的介绍是根据 KUDU 的论文和网上的一些资料学习自己理解所得,如有不实之处,劳请指正。
背景在 KUDU 之前,大数据主要以两种方式存储:
  • 静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。
  • 动态数据:以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如 HDFS,不适用于批量数据分析的场景。
从上面分析可知,这两种数据在存储方式上完全不同,进而导致使用场景完全不同,但在真实的场景中,边界可能没有那么清晰,面对既需要随机读写,又需要批量分析的大数据场景,该如何选择呢?这个场景中,单种存储引擎无法满足业务需求,我们需要通过多种大数据工具组合来满足这一需求,一个常见的方案是:





回复

使用道具 举报

houenn2020 发表于 2021-2-20 11:12:57
Apache Kudu 1.4.0 中文文档
回复

使用道具 举报

依然范特西 发表于 2021-5-12 14:13:25
感谢楼主分享
回复

使用道具 举报

师傅,有妖气 发表于 2023-10-30 19:48:37
感谢分享,学习一些

回复

使用道具 举报

12345
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条