分享

hdfs集群的一台datanode挂了后其他机器短时间新增几万的数据块

还是个新手,麻烦各位大佬解答下,谢谢!
具体情况是:公司目前用的还是CDH4的版本

前两天hdfs集群其中一台datanode突然挂了,紧急联系运维将机器重新启动,机器起来后我观察后台页面看原有进程都正常启动,但看datanode角色页面发现有告警,说是有一个数据块丢失了,按网上查的指引处理掉后,又发现其他机器告警:空间不足(特别是本身容量紧张的机器)和数据块增长速度变得很快,一时摸不着头脑排查了下当天业务量大小并无异常,决定先处理空间不足的问题,将各datanode空间重新平衡了下,耗时12个小时,暂时决解了空间的问题,但现在很纳闷,为啥短时间内增长了这么多个数据块?我按网上查的执行了下hadoop dfsadmin -metasave指令,好像没什么问题?

1201019 files and directories, 843938 blocks = 2044957 total
Live Datanodes: 11
Dead Datanodes: 0
Metasave: Blocks waiting for replication: 0
Mis-replicated blocks that have been postponed:
Metasave: Blocks being replicated: 0
Metasave: Blocks 0 waiting deletion from 0 datanodes.
Metasave: Number of datanodes: 11

暂时没辙了,还望各位大佬帮忙看看!

已有(4)人评论

跳转到指定楼层
nettman 发表于 2022-11-7 09:27:47
命令是无差别执行,可能不止你丢失的那块。以前比如副本不够的可能也会在这个命令下执行,另外数据增加,元数据也会相应的改变,他是系统的,并不是差什么就给我们补什么。
回复

使用道具 举报

lmydev 发表于 2022-11-7 13:47:16
本帖最后由 lmydev 于 2022-11-7 13:58 编辑
nettman 发表于 2022-11-7 09:27
命令是无差别执行,可能不止你丢失的那块。以前比如副本不够的可能也会在这个命令下执行,另外数据增加,元 ...

有点懵,主要我不是很懂为啥短时间内增长了这么多个数据块,按照之前的情况并不会这样,现在是有4台机器出现块计数的告警,阈值是20w
回复

使用道具 举报

nettman 发表于 2022-11-7 15:18:07
看副本是多少,如果实在不行,可以降低副本。
回复

使用道具 举报

lmydev 发表于 2022-11-7 15:25:42
nettman 发表于 2022-11-7 15:18
看副本是多少,如果实在不行,可以降低副本。

我看了下配置  dfs.replication 现在配置的是2
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条