分享

求助SparkSQL的优化

yangyixin 发表于 2017-9-15 14:23:36 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 6122
我的SparkSQL计算10G以内的数据,速度比Hive慢好多,理论上不是应该更快吗,就算数据量小,是不是也应该速度差不多嘛?
执行语句是select percentile(count,array(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9))from data;
请问下是不是需要调优?
以及怎么调优呀?
我之前调整过参数:
bin/spark-sql --executor-memory 10g --driver-memory 10g
报错如下:
17/09/14 19:51:41 WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

但是我的机器是32g的内存啊,就不知道是那设置的有问题了。

然后相应的调小了使用的内存--executor-memory 2g --driver-memory 2g

还根据http://www.aboutyun.com/thread-11575-1-1.html
设置过spark.sql.shuffle.partitions,设置为400了
bin/spark-sql --conf spark.sql.shuffle.partitions=400
但是也并没有什么卵用

查询速度依然慢的离奇。请问下接下来应该怎么处理?

已有(4)人评论

跳转到指定楼层
zhuqitian 发表于 2017-9-15 14:53:06
percentile这个函数我都没用过,如果你设置参数,直接spark-sql -e "sql..."用默认值试一下
回复

使用道具 举报

yangyixin 发表于 2017-9-15 15:04:49
zhuqitian 发表于 2017-9-15 14:53
percentile这个函数我都没用过,如果你设置参数,直接spark-sql -e "sql..."用默认值试一下

-e不是写执行语句的吗?
那好像没有什么用啊
回复

使用道具 举报

yangyixin 发表于 2017-9-15 15:05:38
我之前调优过yarn,因为当时的hive就能勉强跑1g的数据,调整了yarn-site.xml 的参数yarn.scheduler.resource.mermory-mb,会不会因为这个,hive就会比较快,但是我的sparkSQL在yarn上运行的时候,也很慢的
回复

使用道具 举报

nextuser 发表于 2017-9-15 16:02:34
yangyixin 发表于 2017-9-15 15:05
我之前调优过yarn,因为当时的hive就能勉强跑1g的数据,调整了yarn-site.xml 的参数yarn.scheduler.resourc ...


配置下spark-env.sh的内存
来自:
【求助】spark运行打包的jar程序,遇到接受不到任务资源的问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=14876


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条