分享

CDH集群磁盘IO太高,CPU也很高,如何查询原因

本帖最后由 cloudcat 于 2017-3-3 23:54 编辑

集群:6台服务器  64G内存,2.7T硬盘
组件:主要是 hbase+solrcloud,网站用于用户检索
网站每天2000万~3000万访问量,以前访问量和现在的访问量差不多。

以前:
  HDFS IO,最高时候,整个datanodes中的读取字节 为 80M/s ;
  集群磁盘IO,最高时候,整个磁盘的磁盘字节读取小于 50M/s
  cpu:平均 15%

现在:
  HDFS IO,最高时候,整个datanodes中的读取字节 为 800M/s ;
  集群磁盘IO,最高时候,整个磁盘的磁盘字节读取300M/s
  cpu:平均 66%

现在的图如下所示

1111.png
以前HDFS IO 肯定大于磁盘IO,现在磁盘IO晚上居然大于HDFS IO,感觉很奇怪。
问题:我如何查看集群磁盘IO为什么这么高,现在CDH正在做啥,我如何查询整个原因呀?
      


已有(3)人评论

跳转到指定楼层
easthome001 发表于 2017-3-4 08:52:34
首先确定是内部原因还是外部原因。
集群是否暴露在外网。如果外面,首先排除是否为攻击。
比如请求量,端口wait的数量。
如果是内部原因:
看看是否长期这个状态。如果长期这个状态,可以查看下到底是哪个进程的问题。
比如io飙高的时候,到底是哪个进程的原因。
推荐参考这个

排查Linux下进程的IO活动状况的两个案例及方法介绍
可直接查看第二个案例,找到到底是哪个进程的原因
回复

使用道具 举报

cloudcat 发表于 2017-3-6 14:54:46
easthome001 发表于 2017-3-4 08:52
首先确定是内部原因还是外部原因。
集群是否暴露在外网。如果外面,首先排除是否为攻击。
比如请求量,端 ...

很感谢楼上的回答,我去试试,希望有用
回复

使用道具 举报

liuyou2036 发表于 2020-7-16 10:14:03
很久的文章了,学习~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条