立即注册 登录
About云-梭伦科技 返回首页

june_fu的个人空间 https://www.aboutyun.com/?8956 [收藏] [复制] [分享] [RSS]

日志

HDP-v3:MR原理及工作机制

已有 822 次阅读2015-2-8 23:08 |个人分类:HDP-v3 study| mapreduce

5e:
作业的提交在任何一个节点上都可以做,最终都提交给jobtracker,jobtracker先对数据进行分区(split),一般情况下就是一个block,但不一定,接近block而已(不一定split刚好能够一个block);
input------>split----->map程序处理---->shuffle(sort merge)-------->reduce---->output
combiner 对reduce节点的数据输入做预处理:注意reduce程序必须可以预处理(比如求最大值可以,平均值就不可以)
5f:
作业调优:
1、需要的reducer数量
2、输入,大文件优于小文件
3、减少网络传输,压缩map输出
4、优化每个节点能运行的任务数:mapred.tasktracker.map.tasks.maximum  mapred.tasktracker.reduce.tasks.maximum(缺省均为2)
5g:hadoop流
streaming 允许非java程序员编写mr程序;| 管道符链接


路过

雷人

握手

鲜花

鸡蛋

全部作者的其他最新日志

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

关闭

推荐上一条 /2 下一条