分享

map如何处理分块数据,保证数据的完整性

yanglei 发表于 2016-5-16 10:49:38 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 9173
本帖最后由 yanglei 于 2016-5-16 10:51 编辑

老师同学们,有个问题,想不通是关于hadoop数据分块和map处理的。
比如wordcount这个例子,我的输入文件是一个10G的文件,如果分块的大小是64M,那么就会有多个文件分到不同的节点上面。
但是如果以64M分割,其中一个单词Hello,的“Hel”在【节点1】上面,而“lo”在【节点2】上面。
那么map任务分别在【节点1】和【节点2】上面执行。
如果我的map任务是以空格来分单词的,那么如何处理【节点1】上面结尾的“Hel”和【节点2】文件开头的“lo”。
有个英文参考信息:
http://stackoverflow.com/questio ... ss-block-boundaries

但是还是不怎么清楚其中的机制。

已有(3)人评论

跳转到指定楼层
yanglei 发表于 2016-5-16 10:50:17
有个参考信息,但是还是不是很清楚。
http://stackoverflow.com/questio ... ss-block-boundaries
回复

使用道具 举报

tntzbzc 发表于 2016-5-16 14:38:57
yanglei 发表于 2016-5-16 10:50
有个参考信息,但是还是不是很清楚。
http://stackoverflow.com/questions/14291170/how-does-hadoop-proc ...

楼主参考这个
Hadoop MapReduce中如何处理跨行Block和inputSplit
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7704


回复

使用道具 举报

yanglei 发表于 2016-5-16 15:28:48
tntzbzc 发表于 2016-5-16 14:38
楼主参考这个
Hadoop MapReduce中如何处理跨行Block和inputSplit
http://www.aboutyun.com/forum.php?m ...

谢谢,现在大致还是了解了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条