分享

cdh出现重复机器(附上图片)

d414491305 发表于 2015-11-24 09:13:14 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 3 20551
本帖最后由 pig2 于 2015-11-24 10:37 编辑


一共6台机器,昨天上午有两台内存坏了,运维要重启,我就用cm把整个集群停掉了,然而忘了去终端看一眼进程情况,后来发现每台机器上的服务并没有停掉。等再开机的时候,坏掉的两台机器时间不对,重新校正了时间,重新用cm停掉了所有服务,再启动,发现启动不了。停掉所有agent和server,重启,ok了,可是。。。3和4两台机器竟然会重复出现,还是个坏的节点,刷新了集群好了,但是过一会儿又出现了,求帮助~

EA64A73C-E312-4C22-996D-347DC1B28C7C.png
而且还有一个问题,就是5和6的zk,一直是选举状态,我以为hbase要奇数zk节点的问题,后来停掉一个,还是不行,求解~

已有(3)人评论

跳转到指定楼层
jixianqiuxue 发表于 2015-11-24 11:05:37
楼主看下有问题的客户端与正常的客户端有哪些不同,是否有僵死进程等不同的地方。
回复

使用道具 举报

d414491305 发表于 2015-11-25 09:03:07
jixianqiuxue 发表于 2015-11-24 11:05
楼主看下有问题的客户端与正常的客户端有哪些不同,是否有僵死进程等不同的地方。

ps aux|grep cm所有的cm相关进程全比较过,没有问题,都是一样的,好奇怪...
回复

使用道具 举报

d414491305 发表于 2015-11-25 09:37:58
jixianqiuxue 发表于 2015-11-24 11:05
楼主看下有问题的客户端与正常的客户端有哪些不同,是否有僵死进程等不同的地方。

“该主机与 Cloudera Manager 断开联系的时间过长。 不能确定主机的 Cloudera Manager Agent 软件版本。”报的是这个错误,然而在另一个条目中却是正常的,两个图的对比:
8A751BA7-535A-4E93-A678-135C1308A941.png
xxx.png
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条