分享

新手指导:mapreduce不同类型的数据分到同一个分区是否会影响输出结果

nettman 发表于 2014-5-1 12:53:28 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 17562
本帖最后由 nettman 于 2014-5-1 12:54 编辑
问题导读
1.不同类型数据被分到同一个分区,是否会影响输出结果?
2.分区函数该如何实现





此篇需要对mapreduce有一定的了解,知道了解mapreduce的过程中,map需要分区,有多少个分区就有多少个reduce。
因此我们的map是如何分区的。
map通过Partitioner实现分区。Partitioner则是通过取余算法来实现的。
比如:
1.默认分区
key.hashcode%numPartitions
如果数值相同则被分到同一个分区。
2.自定义分区
在如下面是对男女进行分区:


对于上面假如我们把这些数据都放到一个分区中,
是否会影响输出结果那?
答案是不影响输出结果
影响的是什么?
如果都放到一个分区,会造成性能下降。

加微信w3aboutyun,可拉入技术爱好者群

已有(3)人评论

跳转到指定楼层
maizhu 发表于 2014-10-8 10:29:59
回复

使用道具 举报

tang 发表于 2015-3-7 19:11:40
回复

使用道具 举报

电猿 发表于 2017-7-18 15:19:38
很好的讲解
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条