分享

100亿行记录, key只有两个,统计数目, 只生成2行记录mapreduce该如何处理

NEOGX 发表于 2014-5-5 16:36:49 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 12 28649
stone_nono 发表于 2014-8-22 10:20:01
本地进行combiner----再进行reduce
回复

使用道具 举报

qzjqzjqzj 发表于 2014-12-1 11:18:10
本地combiner(假设job.setCombinerClass(Reducer.class))再调reducer,而不是直接调reducer,区别不就是本地调用和异地调用reducer?也就是缩短了数据网络传输那部分时间?
否则如果我combiner采用和reducer(job.setCombinerClass(Reducer.class))一样的实现,缩短的时间来自哪,虽然combiner把数据集合并了一下,但是数据量由松散变成合起来,数据量应该没有多大减少吧。
回复

使用道具 举报

howtodown 发表于 2014-12-1 14:04:44
qzjqzjqzj 发表于 2014-12-1 11:18
本地combiner(假设job.setCombinerClass(Reducer.class))再调reducer,而不是直接调reducer,区别不就是 ...
首先是速度是快的,不快的话,说明你的数据还是少。
一个人对10组数据排序

和处理后的10组数据排序,是不一样的
回复

使用道具 举报

12
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条