reduce取map所在节点数据是采用HTTP协议，在数据量很大情况下，网络开销会不会很大？

我司考虑把2PB图片数据通过hadoop做中间层。我自学了半个月的hadoop然后给公司科普，在我说到reduce会将map本地计算的数据结果通过HTTP协议远程取过来再排序合并操作。领导认为对网络开销太大。

我想问hadoop有没有对大量图像做处理的例子。因为reduce的结果会是多个图片拼接后的一张大图，那么在reduce合并过程中会在好多节点获取数据，而且还是序列化和反序列化的过程，会不会开销太大？

langke93 · 发表于 2015-5-12 17:25:27

局域网开销不是问题，io是瓶颈。

langke93 · 发表于 2015-5-12 17:27:32

下列哪项通常是集群的最主要瓶颈
a)CPU b)网络 c)磁盘IO d)内存

答案：C磁盘

首先集群的目的是为了节省成本，用廉价的pc机，取代小型机及大型机。小型机和大型机有什么特点？

1.cpu处理能力强
2.内存够大
所以集群的瓶颈不可能是a和d
3.网络是一种稀缺资源，但是并不是瓶颈。

4.由于大数据面临海量数据，读写数据都需要io，然后还要冗余数据，hadoop一般备3份数据，所以IO就会打折扣。
同样可以参考下面内容（磁盘IO：磁盘输出输出）
对于磁盘IO：当我们面临集群作战的时候，我们所希望的是即读即得。可是面对大数据，读取数据需要经过IO，这里可以把IO理解为水的管道。管道越大越强，我们对于T级的数据读取就越快。所以IO的好坏，直接影响了集群对于数据的处理。
集群瓶颈：磁盘IO必读
集群瓶颈为什么磁盘io

Hadoop 面试题,看看书找答案，看看你能答对多少（2）答案公布

图文精华

reduce取map所在节点数据是采用HTTP协议，在数据量很大情况下，网络开销会不会很大？

相关帖子

已有(2)人评论

最佳新人

活跃会员

热心会员

推荐 /2