分享

Cloudera Enterprise 6提高Hive执行效率2.2倍

pig2 2018-10-31 11:17:52 发表于 小知识点 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 5088
相关文章:
Cloudera Enterprise 6.0发布【集成Hadoop3.0】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=25175


Cloudera Hive团队将Apache Hive 2.1引入Cloudera Enterprise 6:

Cloudera 专注于整个平台的效率。 虽然本地平台效率有助于长期管理成本,但通过降低总体拥有成本(TCO)可实现云内部署的直接优势。 Cloudera 两年前推出了Hive-on-Spark,以与英特尔合作实现这一目标。 Cloudera 与英特尔长期合作,优化Cloudera在英特尔架构上的堆栈,以便客户获益。

在Enterprise 6.0中,为了进一步提高Hive的效率,Cloudera 与英特尔建立了战略合作伙伴关系,Cloudera在HoS中引入了一项名为Parquet Vectorization的主要性能和效率增强。此功能使HoS引擎能够通过将数据行一起批处理为列向量并使每个运算符处理此类列向量来一次处理列向量而不是一行。这样可以更好地利用CPU缓存,并通过有效地使用CPU指令流水线实现每个周期的高指令。此外,Cloudera 还包括许多其他性能改进。例如,Hive经常在自联接,自联合或共享子查询期间多次扫描给定表。为了解决这个问题,HoS中的动态RDD缓存在所有这些操作中重用单次扫描。类似地,当重复使用相同的子查询时,对于每个子查询调用,HoS仅执行一次而不是单独执行。总的来说,通过所有这些增强功能,在最新的Enterprise 5.x版本中,Enterprise 6.0 Hive可以比Hive快2.2倍。这些收益中的大部分可归因于Hive-on-Spark的Parquet Vectorization。


没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条