分享

彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题

 
hyj 发表于 2014-3-7 21:55:06 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 50 162758
gtchen 发表于 2014-5-5 16:53:23
请教个问题,这里说   “当溢写线程启动后,需要对这80MB空间内的key做排序(Sort)。排序是MapReduce模型默认的行为,这里的排序也是对序列化的字节做的排序。”  ,在这里面我有点困惑就是为什么会在这里做排序呢,这样排序出来的结果仅仅是对这80%的数据而言是有序的,然后是否在对这80%的数据排完序后就生成一个本地文件,后面再有map端的数据输出时,继续对剩余的数据做同样的操作,这样子最后就变成了有多个溢出文件(单个溢出文件是有序的,但是整体上是无序的),那么最后在merge成一个输出文件时还需再排序一次,同时,reduce在进行merge的时候同样需要再次排序(因为它从多个map处拉数据)? 这个是我的猜想,很想知道里面具体是怎么做的,不知能否详述下?     
另想讨教下该如何看源码呢,很多问题想深入学习,但拿到源码后不知该如何一步一步去看?能否大致上说下过程?  求解答,非常感谢!!!
回复

使用道具 举报

tchanghunua 发表于 2014-6-1 22:14:55
这个分析的真心好,虽然具体该怎样理解,个人有个人的观点
回复

使用道具 举报

xk523092408 发表于 2014-7-23 09:34:18
回复

使用道具 举报

shl_gao 发表于 2014-8-5 11:39:08
howtodown 发表于 2014-4-20 17:36
个人认为是先分区后合并。

支持这种观点,后面研究下源码也来一篇
回复

使用道具 举报

hb1984 发表于 2014-8-27 22:47:04
谢谢楼主分享。               
回复

使用道具 举报

dearboll 发表于 2014-9-1 18:25:41
pig2 发表于 2014-3-7 22:12
本帖最后由 nettman 于 2014-3-8 00:07 编辑
个人观点仅供参考:
Shuffle产生的意义是什么?

你好,想请教一下,combine和partition到底谁先执行?是先执行partition函数确定map的结果由哪个reduce执行,然后才进行combine的吗?

回复

使用道具 举报

howtodown 发表于 2014-9-1 18:36:24
combine是map里面的概念,个人认为如果没有分区,合并就没有意义了,所以应该是先分区,然后在合并。
这些操作在mapreduce里面都是可以设置的,合并并不是必须的。
可以参考另外一篇:
MapReduce中combine、partition、shuffle的作用是什么?在程序中怎么运用?

回复

使用道具 举报

howtodown 发表于 2014-9-1 18:38:20
本帖最后由 howtodown 于 2014-9-1 18:40 编辑
gtchen 发表于 2014-5-5 16:53
请教个问题,这里说   “当溢写线程启动后,需要对这80MB空间内的key做排序(Sort)。排序是MapReduce模型默 ...

可以参考另外一篇:
MapReduce中combine、partition、shuffle的作用是什么?在程序中怎么运用?map排序,可以减轻reduce的压力。

看源码,可以参考下面两个帖子
从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码

从零教你如何获取hadoop2.4源码并使用eclipse关联hadoop2.4源码



回复

使用道具 举报

dearboll 发表于 2014-9-1 18:48:45
howtodown 发表于 2014-9-1 18:36
combine是map里面的概念,个人认为如果没有分区,合并就没有意义了,所以应该是先分区,然后在合并。
这 ...

谢谢 也就是说先map函数执行的结果先partition,然后combine,得map阶段最终输出给reduce的结果?是这样吗?

点评

和你的观点一致  发表于 2014-9-1 23:46
回复

使用道具 举报

Hedera 发表于 2014-10-7 11:01:59
gtchen 发表于 2014-5-5 16:53
请教个问题,这里说   “当溢写线程启动后,需要对这80MB空间内的key做排序(Sort)。排序是MapReduce模型默 ...

这个是排序的一种思想----合并排序。先进行小范围排序,最后再大范围排序。最后的复杂度为O(nlog(n)),比普通排序复杂度O(n的平方)快。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条