分享

执行DataFrame.count的时候遇到的问题,求大神帮忙

问题.png

我再这行DataFrame之前做个多次unionAll操作。这个count的DataFrame是经过多次unionAll出来的一个DataFrame。
请问为什么会有这么多的task,严重影响执行效率。而且实际数据只有几百条而已。


已有(4)人评论

跳转到指定楼层
wscl1213 发表于 2016-1-20 12:30:36
楼主多次union的结果
而且这可能N的N次方肯定很大的。
回复

使用道具 举报

duliming 发表于 2016-1-20 13:54:42
wscl1213 发表于 2016-1-20 12:30
楼主多次union的结果
而且这可能N的N次方肯定很大的。

那有什么办法解决吗?我暂时解决的办法是先导出到HDFS再重新加载一次。
回复

使用道具 举报

duliming 发表于 2016-1-21 09:59:56
duliming 发表于 2016-1-20 13:54
那有什么办法解决吗?我暂时解决的办法是先导出到HDFS再重新加载一次。

[SPARK-12616]已解决此问题。
回复

使用道具 举报

easthome001 发表于 2016-1-21 12:38:33
duliming 发表于 2016-1-21 09:59
[SPARK-12616]已解决此问题。

还没毕业,英文不懂55555
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条