分享

reduce取map所在节点数据是采用HTTP协议,在数据量很大情况下,网络开销会不会很大?

huntagain 发表于 2015-5-12 16:56:42 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 2 9471
我司考虑把2PB图片数据通过hadoop做中间层。我自学了半个月的hadoop然后给公司科普,在我说到reduce会将map本地计算的数据结果通过HTTP协议远程取过来再排序合并操作。领导认为对网络开销太大。

我想问hadoop有没有对大量图像做处理的例子。因为reduce的结果会是多个图片拼接后的一张大图,那么在reduce合并过程中会在好多节点获取数据,而且还是序列化和反序列化的过程,会不会开销太大?

已有(2)人评论

跳转到指定楼层
langke93 发表于 2015-5-12 17:25:27


局域网开销不是问题,io是瓶颈。

回复

使用道具 举报

langke93 发表于 2015-5-12 17:27:32



下列哪项通常是集群的最主要瓶颈
a)CPU   b)网络 c)磁盘IO  d)内存

答案:C磁盘

首先集群的目的是为了节省成本,用廉价的pc机,取代小型机及大型机。小型机和大型机有什么特点?

1.cpu处理能力强
2.内存够大
所以集群的瓶颈不可能是a和d
3.网络是一种稀缺资源,但是并不是瓶颈。

4.由于大数据面临海量数据,读写数据都需要io,然后还要冗余数据,hadoop一般备3份数据,所以IO就会打折扣。
同样可以参考下面内容(磁盘IO:磁盘输出输出)
对于磁盘IO:当我们面临集群作战的时候,我们所希望的是即读即得。可是面对大数据,读取数据需要经过IO,这里可以把IO理解为水的管道。管道越大越强,我们对于T级的数据读取就越快。所以IO的好坏,直接影响了集群对于数据的处理。
集群瓶颈:磁盘IO必读
集群瓶颈为什么磁盘io

Hadoop 面试题,看看书找答案,看看你能答对多少(2)答案公布
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条