分享

hive on spark效率

我测试了hive on  mr  与hive on spark
多表join/窗口函数/groupby这三种情况
结果令我很失望,hive on spark 在使用相同资源时执行时间更慢(可能spark快一点,但使用的资源更多,也就是说Memory-seconds  vcore-seconds spark执行的更大)有没有使用hive on spark的

已有(4)人评论

跳转到指定楼层
s060403072 发表于 2019-2-19 10:24:07


下面是Hive on MapReduce机制图
1.png


下面是Spark sql的执行机制
2.png


对于Hive on spark不在使用MapReduce,而是使用的是spark sql的引擎。
从机制上来说,spark sql确实是快的,而且官网好像说快10到10倍。但是其实这些应该都是有条件的。
比如我们 运行wordcount,在数据量只有几十行的情况下,传统的统计比MapReduce应该快很多。
所以我们在使用的时候,并不是说官网的效率高就是效率高,我们要根据我们自己的情况来使用相应的技术。


回复

使用道具 举报

jinwensc 发表于 2019-2-20 08:52:15
s060403072 发表于 2019-2-19 10:24
下面是Hive on MapReduce机制图

hive on spark 与spark sql是不一样的,测试都是较大数据,也测试了多种情况
回复

使用道具 举报

yaojiank 发表于 2019-2-20 13:45:33
jinwensc 发表于 2019-2-20 08:52
hive on spark 与spark sql是不一样的,测试都是较大数据,也测试了多种情况

很多公司都是这种方式。
比如京东也是。相对来说,应该是比MapReduce快的
回复

使用道具 举报

jinwensc 发表于 2019-2-25 09:04:31
yaojiank 发表于 2019-2-20 13:45
很多公司都是这种方式。
比如京东也是。相对来说,应该是比MapReduce快的

不能光说时间啊,还要看使用的资源,使用相同的资源快才是真的快
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条