hadoop作业调优参数整理及原理

about云腾讯认证空间 · 2013-12-12 22:33 上传

本帖最后由 pig2 于 2014-4-21 11:07 编辑

当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示，每一个map都会对应存在一个内存buffer（MapOutputBuffer，即上图的buffer in memory），map会将已经产生的部分结果先写入到该buffer中，这个buffer默认是100MB大小，但是这个大小是可以根据job提交时的参数设定来调整的，该参数即为：io.sort.mb。当map的产生数据非常大时，并且把io.sort.mb调大，那么map在整个计算过程中spill的次数就势必会降低，map task对磁盘的操作就会变少，如果map tasks的瓶颈在磁盘上，这样调整就会大大提高map的计算性能。

skypeng · 发表于 2014-3-17 11:57:25

谢谢，学习一下

图文精华

hadoop作业调优参数整理及原理

活跃会员

热心会员

推广达人

优秀版主

推荐 /2