分享

spark 怎么控制数输出文件个个数

scala 2015-8-7 00:20:11 发表于 疑问解答 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 52062
大家好,      spark rdd reducer 后,要保存为文件,如saveAsTextFiles,如何控制输出文件的大小或者个数呢? 大家有什么好的效率比较高的方法吗?repartition  效率太慢了?


谢谢!

已有(2)人评论

跳转到指定楼层
NEOGX 发表于 2015-8-7 07:48:15
因为Spark内部写文件方式其实调用的都是Hadoop的函数,所以我们也可以通过Spark实现多文件输出。Spark内部没有多文件输出的函数供大家直接调用,我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可


更多参考
Spark如何实现多文件输出
回复

使用道具 举报

scala 发表于 2015-8-7 10:43:56
谢谢,我用用看!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条