map如何处理分块数据，保证数据的完整性

本帖最后由 yanglei 于 2016-5-16 10:51 编辑

老师同学们，有个问题，想不通是关于hadoop数据分块和map处理的。
比如wordcount这个例子，我的输入文件是一个10G的文件，如果分块的大小是64M，那么就会有多个文件分到不同的节点上面。
但是如果以64M分割，其中一个单词Hello，的“Hel”在【节点1】上面，而“lo”在【节点2】上面。
那么map任务分别在【节点1】和【节点2】上面执行。
如果我的map任务是以空格来分单词的，那么如何处理【节点1】上面结尾的“Hel”和【节点2】文件开头的“lo”。
有个英文参考信息：
http://stackoverflow.com/questio ... ss-block-boundaries

但是还是不怎么清楚其中的机制。