我的SparkSQL计算10G以内的数据,速度比Hive慢好多,理论上不是应该更快吗,就算数据量小,是不是也应该速度差不多嘛?
执行语句是select percentile(count,array(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9))from data;
请问下是不是需要调优?
以及怎么调优呀?
我之前调整过参数:
bin/spark-sql --executor-memory 10g --driver-memory 10g
报错如下:
17/09/14 19:51:41 WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
但是我的机器是32g的内存啊,就不知道是那设置的有问题了。
然后相应的调小了使用的内存--executor-memory 2g --driver-memory 2g
还根据http://www.aboutyun.com/thread-11575-1-1.html
设置过spark.sql.shuffle.partitions,设置为400了
bin/spark-sql --conf spark.sql.shuffle.partitions=400
但是也并没有什么卵用
查询速度依然慢的离奇。请问下接下来应该怎么处理?
|