分享

HDFS文件上传加速问题

cwalet 发表于 2016-6-28 11:43:31 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 7 25398
本帖最后由 cwalet 于 2016-6-28 11:45 编辑

version:Hadoop 2.7.2(HA模式)
blocksize:128M(default)

DFS Used: 240 TB
DFS Used%: 40%
Under replicated blocks: 0
Blocks with corrupt replicas: 2
Missing blocks: 0
Missing blocks (with replication factor 1): 0
Live datanodes (34)

现在发现ls或put速度较慢(根目录文件很少,且在datanode或非datanode均是如此):
RTX截图未命名.jpg

请问如何优化提速?

已有(7)人评论

跳转到指定楼层
qcbb001 发表于 2016-6-28 14:38:18
楼主先确保每个客户端的内存足够用。是否整台机器都慢。
回复

使用道具 举报

cwalet 发表于 2016-6-28 14:54:33
本帖最后由 cwalet 于 2016-6-28 14:55 编辑
qcbb001 发表于 2016-6-28 14:38
楼主先确保每个客户端的内存足够用。是否整台机器都慢。

目前所有datanode内存都是用满的,free:0
但是这跟节点内存有直接关系吗?
namenode的内存只用了1/3,剩余40G,ls命令主要是受namenode影响吧?而且现在双namenode都不慢。
回复

使用道具 举报

qcbb001 发表于 2016-6-28 15:09:30
cwalet 发表于 2016-6-28 14:54
目前所有datanode内存都是用满的,free:0
但是这跟节点内存有直接关系吗?
namenode的内存只用了1/3, ...

hadoop是分布式的,也可以说他们是一体的。
如果有的客户端慢,可能会影响速度的。他们之间是需要通信的,如果一台机器反映不过来,可能就会造成效率降低
回复

使用道具 举报

恋枫缩影 发表于 2016-6-29 08:57:42
hadoop各个节点nameNode、dataNode之间都是通过rpc进行通信的,尽量保持每个节点都有足够的内存才能保持整个分布式系统的性能。
回复

使用道具 举报

mrcui 发表于 2016-7-13 11:43:30
做大数据系统,优化和部署对性能影响非常大,put的速度慢,可以从以下入手
1、是客户端的对文件系统的读出速度,这时起步;
2、看客户端与hadoop集群之间的带宽,客户端实际上是把数据直接分发到各个datanode的,网络带宽如果不够,那速度快不了,这时限制大数据的一个重要瓶颈。
3、集群上是否存在IO占用非常高的datanode;
以上三点是解决Put速度慢的方法, 其实各种IT问题都类似,解决思路也是类似。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条