搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Mapreduce
›
新手指导:mapreduce不同类型的数据分到同一个分区是否 ...
0
3
1
分享
新手指导:mapreduce不同类型的数据分到同一个分区是否会影响输出结果
nettman
发表于 2014-5-1 12:53:28
[显示全部楼层]
阅读模式
关闭右栏
3
17562
About云VIP帮助找工作和提升
本帖最后由 nettman 于 2014-5-1 12:54 编辑
问题导读
1.不同类型数据被分到同一个分区,是否会影响输出结果?
2.分区函数该如何实现
此篇需要对mapreduce有一定的了解,知道了解mapreduce的过程中,map需要分区,有多少个分区就有多少个reduce。
因此我们的map是如何分区的。
map通过Partitioner实现分区。Partitioner则是通过取余算法来实现的。
比如:
1.默认分区
key.hashcode%numPartitions
如果数值相同则被分到同一个分区。
2.自定义分区
在如下面是对男女进行分区:
对于上面假如我们把这些数据都放到一个分区中,
是否会影响输出结果那?
答案是
不影响输出结果
。
影响的是什么?
如果都放到一个分区,会造成性能下降。
加微信w3aboutyun,可拉入技术爱好者群
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(3)人评论
电梯直达
正序浏览
maizhu
发表于 2014-10-8 10:29:59
回复
使用道具
举报
显身卡
tang
发表于 2015-3-7 19:11:40
回复
使用道具
举报
显身卡
电猿
发表于 2017-7-18 15:19:38
很好的讲解
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
nettman
超级版主
关注
2849
主题
3142
帖子
477
粉丝
TA的主题
利用简历在面试中“带节奏”
2024-3-12
百度内核数据研发一面凉经
2024-3-11
大数据工程师面试 - 字节跳动 Spark 面试考点!
2024-3-11
数据开发 - 面经 - 来未来(医疗大数据)
2024-3-11
2024求职:慎填面试登记表
2024-3-5
24小时热文
项目经理应该知道的97件事
数据治理解决方案
数据治理系统实施方案
大龄失业后,这些副业路子都是被割韭菜
性格决定命运是谎言,这才真正决定命运
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈