立即注册 登录
About云-梭伦科技 返回首页

lutuoxiangzi100的个人空间 https://www.aboutyun.com/?11812 [收藏] [复制] [分享] [RSS]

日志

MR 调优策略

热度 2已有 663 次阅读2015-3-20 10:25 |个人分类:hadoop

调优项目

调整要领

Mapper 数量

运行mapper 需要多长时间?如果平均每个只需要运行几秒钟,则可以看是否通过能减少maper 数量让其运行时间长一些。减少mapper 数量是出于集群整体效率考虑。Mapper 总体运行时间的标准通常为一分钟左右。时间长度取决使用的输入格式,而文件的大小对于MapReduce 不是一个问题。

Reducer 数量

Reducer 的数目设置的比reducer 数少一点,这样reducer能够将更多的数据聚类到一次处理。

Conbine 函数

map 输出结果到reducer 运行之前,通过增加合并处理,可以减少任务节点间的数据传输量,提高运算效率

中间值得产生

map 输出镜像压缩使作业执行更快一些,可以减少网络传输的数据量

自定义序列

通过自定义序列格式,提前要处理的文件镜像组织,可以极大迪提高mapreduce 程序的运行效率

Shuffle 运行

通过调整任务节点上内存大小,是更多数据放在内存中进行聚类,一减少对磁盘I/O 操作


路过

雷人

握手

鲜花

鸡蛋

全部作者的其他最新日志

发表评论 评论 (2 个评论)

回复 arsenduan 2015-3-20 18:49
Reducer 的数目应设置的比reducer 槽数少一点,这样reducer能够将更多的数据聚类到一次处理。这句不太懂
回复 sprite101 2015-5-7 09:56
学习了。。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 立即注册

关闭

推荐上一条 /2 下一条