分享

请教下 MR中分块和分片有啥区别呢

Wyy_Ck 发表于 2017-3-14 19:18:09 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 7755
请教下 MR中分块和分片有啥区别呢

看了很多 但是还是很模糊 求解答

已有(5)人评论

跳转到指定楼层
einhep 发表于 2017-3-14 19:48:40
分片是数据处理的输入逻辑划分,分块是数据存储的逻辑划分, 一个是处理 一个是存储。
取分片大小不大于block,并且不小于在mapred.min.split.size配置中定义的最小Size。

回复

使用道具 举报

Wyy_Ck 发表于 2017-3-14 19:53:32
einhep 发表于 2017-3-14 19:48
分片是数据处理的输入逻辑划分,分块是数据存储的逻辑划分, 一个是处理 一个是存储。
取分片大小不大于bl ...

会不会一片出现在两个块  这一个怎么处理的
回复

使用道具 举报

einhep 发表于 2017-3-14 19:58:38
Wyy_Ck 发表于 2017-3-14 19:53
会不会一片出现在两个块  这一个怎么处理的

这篇文章,楼主可以看下
Hadoop MapReduce中如何处理跨行Block和inputSplit
http://www.aboutyun.com/forum.php?mod=viewthread&tid=7704


回复

使用道具 举报

yongjian3311 发表于 2017-3-15 17:23:57
概念不同:
分块其实是基于HDFS的,Block,存数据会放到几个节点不同的块,取数据时会从不同节点的块取;
而分片是Map过程中进行数据切片,split,达到分而治之的目的。
回复

使用道具 举报

yongjian3311 发表于 2017-3-15 17:31:30
Wyy_Ck 发表于 2017-3-14 19:53
会不会一片出现在两个块  这一个怎么处理的

MR会分成多个切片执行,每个切片一个Map,每个切片里面包含多个要处理的文件(已切片的)的数据源信息(例如块地址),Map进程会处理这些块并进行排序、分区,合并。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条