分享

hadoop数据节点中某个磁盘分区数据倾斜问题请教??

jttsai 发表于 2014-11-20 09:50:06 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 27756
Filesystem                Size  Used Avail Use% Mounted on
/dev/mapper/LVM0-LVM0_01   50G   11G   36G  24% /
devtmpfs                   32G  428K   32G   1% /dev
tmpfs                      71G   76K   71G   1% /dev/shm
/dev/mapper/LVM0-LVM0_03   50G   17G   30G  36% /app
/dev/cciss/c0d0           551G  430G   94G  83% /data1
/dev/cciss/c0d1           551G  411G  112G  79% /data2
/dev/cciss/c0d2           551G  408G  116G  78% /data3
/dev/cciss/c0d3           551G  407G  116G  78% /data4
/dev/cciss/c0d4           551G  398G  126G  77% /data5
/dev/cciss/c0d5           551G  406G  117G  78% /data6
/dev/cciss/c7d0p1        1004M  149M  805M  16% /boot

hadoop数据节点中某个磁盘分区中,为什么data1分区一直很高,比其他分区高出5个百分点??

已有(3)人评论

跳转到指定楼层
bioger_hit 发表于 2014-11-20 11:20:38


作者可参考下面内容:
在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的状态,使用这个程序的命令如下:

  1. sh $HADOOP_HOME/bin/start-balancer.sh –t 10%
复制代码




这个命令中-t参数后面跟的是HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。

Hadoop的开发人员在开发Balancer程序的时候,遵循了以下几点原则:
1.    在执行数据重分布的过程中,必须保证数据不能出现丢失,不能改变数据的备份数,不能改变每一个rack中所具备的block数量。
2.    系统管理员可以通过一条命令启动数据重分布程序或者停止数据重分布程序。
3.    Block在移动的过程中,不能暂用过多的资源,如网络带宽。
4.    数据重分布程序在执行的过程中,不能影响name node的正常工作。


来源:
HADOOP HDFS BALANCER介绍及经验总结



回复

使用道具 举报

jttsai 发表于 2014-11-20 13:22:31
bioger_hit 发表于 2014-11-20 11:20
作者可参考下面内容:
在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一 ...

我现在的问题不是集群间的数据不平衡,而是单节点下面不同磁盘分区之间的不平衡,其中一个使用率明显高于其他分区想知道为什么?能解释么?
回复

使用道具 举报

jixianqiuxue 发表于 2014-11-21 12:14:42
jttsai 发表于 2014-11-20 13:22
我现在的问题不是集群间的数据不平衡,而是单节点下面不同磁盘分区之间的不平衡,其中一个使用率明显高于 ...
楼主这应该不是数据倾斜,这跟window是一样的。如果你c盘放的数据多,那么你的C就满的快,如果D盘放的数据多,那么D盘就会看到已经满了。所以如果那个分区暂的空间多,说明楼主的分区不合理,或则数据分配不合理,如果看到数据满了,就把数据挪到别的分区就可以了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条