100亿行记录， key只有两个，统计数目，只生成2行记录mapreduce该如何处理

stone_nono · 发表于 2014-8-22 10:20:01

本地进行combiner----再进行reduce

qzjqzjqzj · 发表于 2014-12-1 11:18:10

本地combiner（假设job.setCombinerClass(Reducer.class)）再调reducer，而不是直接调reducer，区别不就是本地调用和异地调用reducer？也就是缩短了数据网络传输那部分时间？
否则如果我combiner采用和reducer（job.setCombinerClass(Reducer.class)）一样的实现，缩短的时间来自哪，虽然combiner把数据集合并了一下，但是数据量由松散变成合起来，数据量应该没有多大减少吧。

howtodown · 发表于 2014-12-1 14:04:44

qzjqzjqzj 发表于 2014-12-1 11:18
本地combiner（假设job.setCombinerClass(Reducer.class)）再调reducer，而不是直接调reducer，区别不就是 ...

首先是速度是快的，不快的话，说明你的数据还是少。
一个人对10组数据排序

和处理后的10组数据排序，是不一样的

图文精华

100亿行记录， key只有两个，统计数目，只生成2行记录mapreduce该如何处理

活跃会员

热心会员

推广达人

宣传达人

突出贡献

优秀版主

论坛元老

推荐 /2

图文精华

100亿行记录， key只有两个，统计数目， 只生成2行记录mapreduce该如何处理

活跃会员

热心会员

推广达人

宣传达人

突出贡献

优秀版主

论坛元老

推荐 /2

100亿行记录， key只有两个，统计数目，只生成2行记录mapreduce该如何处理