分享

关于spark Streaming里的distinct的疑问

邓立辉 发表于 2015-11-20 18:08:08 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 14717
我今天写代码测试发现,感觉rdd的distinct貌似没在rdd的每个分区上先做本地的distinct,而是对整个rdd直接做distinct。因为我将这个rdd直接分成10个rdd,对每个rdd做distinct,然后在union,明显比之前快多了。
知道原理的牛人们指点一下。

已有(2)人评论

跳转到指定楼层
w123aw 发表于 2015-11-20 20:09:55
这个就相当于大家共同的任务,一个任务一台机器做,肯定慢。
一个任务分给10个人,最后整合。这样更快一些。
这跟同样的数据,传统程序肯定慢。mapreduce会快,因为它是多台分工合作,最后 有reduce合并
回复

使用道具 举报

w123aw 发表于 2015-11-20 20:11:48


个人认为这篇文章挺好
【Spark】RDD操作详解2——值型Transformation算子
http://www.aboutyun.com/thread-14523-1-1.html



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条