spark rdd如何做到terasort那样的快速排序

我想使用spark rdd做到像terasort那样先取样分区再排序的功能，写了好久效率总是很慢，请大神指教下吧

einhep · 发表于 2017-6-22 12:14:37

从效率来讲，DataFrame比RDD更快一些。方法就那些，所以楼主需要做的是优化集群等。还有你是怎么做的。这样别人才有针对方法。建议尝试DataFrame

macWang · 发表于 2017-6-22 14:15:54

einhep 发表于 2017-6-22 12:14
从效率来讲，DataFrame比RDD更快一些。方法就那些，所以楼主需要做的是优化集群等。还有你是怎么做的。这样 ...

是这样的，我现在用sparksql从hdfs拿了parquet格式的文件生成DF，文件每行数据都有个string类型的rowkey，拿到这些数据后，我需要像terasort那样根据rowkey分区并排序这些数据。我现在是把这个DF转成了转成了RDD，然后用了sortby排序最后saveasTextFIle落地到了hdfs上。terasort我试过10G数据排序完成只要59s，我这个700M的parquet却需要将近10分钟，我在想这个rdd的分区算法应该怎么写，请指教