分享

spark sql启动的task数量和hbase 设置的numregion数量一致,如何自定义task数量

tt_tt 2018-8-13 10:29:47 发表于 疑问解答 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 8121
我是用hive+hbase+hadoop+spark 在使用spark sql执行语句的时候启动的task的数量与设置的hbase 的numregions是一致,并不是和hadoop上文件对应的块数启动对应的task数量,这样就导致一些文件很大只存在一个task去处理,花费时间很长,有没有办法来设置启动task的数量

已有(3)人评论

跳转到指定楼层
s060403072 发表于 2018-8-13 12:51:07
--total-executor-cores
--executor-cores   
共同决定了当前应用 启动executor的个数

回复

使用道具 举报

fly2015 发表于 2018-8-14 10:39:00
repartition
回复

使用道具 举报

葬爱ヤ兔爷 发表于 2018-11-8 16:31:05
不知道是否要用到DataFrame呢,如果是的话可以使用option,key "partitionColumn"是分区字段,"numPartitions"是分区数,可以依据条目来分区,不知道对您有没有帮助
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条