分享

clouderaManager出现HostMonitor异常,求大虾指点

zhzhang 发表于 2015-1-6 09:46:40 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 12 219901
clouderaManager出现HostMonitor异常

clouderaManager界面

clouderaManager界面

该机器上的进程

该机器上的进程

已有(12)人评论

跳转到指定楼层
nextuser 发表于 2015-1-6 18:11:08
zhzhang 发表于 2015-1-6 17:13
非常感谢指点,1. /usr/bin/host已经重命名
2./opt/cm-5.1.3/lib/cloudera-scm-agent/里面的东西也已经 ...
卸载之后,重装agent
回复

使用道具 举报

zhzhang 发表于 2015-1-6 09:47:29
没记得做过什么操作,界面就显示不出来了,求指教啊!!!
回复

使用道具 举报

nextuser 发表于 2015-1-6 12:03:39
zhzhang 发表于 2015-1-6 09:47
没记得做过什么操作,界面就显示不出来了,求指教啊!!!
Host Monitor 服务没有启动,重启下试试
回复

使用道具 举报

zhzhang 发表于 2015-1-6 15:29:39
nextuser 发表于 2015-1-6 12:03
Host Monitor 服务没有启动,重启下试试

这个启动不了,所以很纠结
回复

使用道具 举报

bioger_hit 发表于 2015-1-6 15:38:55
zhzhang 发表于 2015-1-6 15:29
这个启动不了,所以很纠结
启动不了,看看日志
回复

使用道具 举报

zhzhang 发表于 2015-1-6 15:46:44
bioger_hit 发表于 2015-1-6 15:38
启动不了,看看日志

[06/Jan/2015 15:45:05 +0000] 3293 MainThread agent        ERROR    Heartbeating to 192.168.1.110:7182 failed.
Traceback (most recent call last):
  File "/usr/lib64/cmf/agent/src/cmf/agent.py", line 815, in send_heartbeat
    self.master_port)
  File "/usr/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/ipc.py", line 464, in __init__
    self.conn.connect()
  File "/usr/lib64/python2.6/httplib.py", line 720, in connect
    self.timeout)
  File "/usr/lib64/python2.6/socket.py", line 567, in create_connection
    raise error, msg
error: [Errno 111] Connection refused

日志报错如上,7182端口是个什么?我发现我7182启动不了

回复

使用道具 举报

nextuser 发表于 2015-1-6 16:24:22
zhzhang 发表于 2015-1-6 15:46
[06/Jan/2015 15:45:05 +0000] 3293 MainThread agent        ERROR    Heartbeating to 192.168.1.110:7 ...
7182 是agent通信端口
首先检查下agent是不是挂掉了

如果不是参考下面错误:

类似错误1:
Detecting Cloudera Manager Server...
Detecting Cloudera Manager Server...
BEGIN host -t PTR 192.168.1.198
198.1.168.192.in-addr.arpa domain name pointer localhost.
END (0)
using localhost as scm server hostname
BEGIN which python
/usr/bin/python
END (0)
BEGIN python -c 'import socket; import sys; s = socket.socket(socket.AF_INET); s.settimeout(5.0); s.connect((sys.argv[1], int(sys.argv[2]))); s.close();' localhost 7182
Traceback (most recent call last):
File "<string>", line 1, in <module>
File "<string>", line 1, in connect
socket.error: [Errno 111] Connection refused
END (1)
could not contact scm server at localhost:7182, giving up
waiting for rollback request

解决办法:

  1. mv /usr/bin/host /usr/bin/host.bak
复制代码




类似错误2

Agent启动后,安装阶段“当前管理的主机”中显示的节点不全,每次刷新显示的都不一样。
Agent的错误日志表现如下:

  1. [18/Nov/2014 21:12:56 +0000] 22681 MainThread agent ERROR Heartbeating to master:7182 failed.
  2. Traceback (most recent call last):
  3.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/src/cmf/agent.py", line 820, in send_heartbeat
  4.     response = self.requestor.request('heartbeat', dict(request=heartbeat))
  5.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/ipc.py", line 139, in request
  6.     return self.issue_request(call_request, message_name, request_datum)
  7.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/ipc.py", line 255, in issue_request
  8.     return self.read_call_response(message_name, buffer_decoder)
  9.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/ipc.py", line 235, in read_call_response
  10.     raise self.read_error(writers_schema, readers_schema, decoder)
  11.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/ipc.py", line 244, in read_error
  12.     return AvroRemoteException(datum_reader.read(decoder))
  13.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/io.py", line 444, in read
  14.     return self.read_data(self.writers_schema, self.readers_schema, decoder)
  15.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/io.py", line 448, in read_data
  16.     if not DatumReader.match_schemas(writers_schema, readers_schema):
  17.   File "/home/opt/cm-5.2.0/lib64/cmf/agent/build/env/lib/python2.6/site-packages/avro-1.6.3-py2.6.egg/avro/io.py", line 379, in match_schemas
  18.     w_type = writers_schema.type
  19. AttributeError: 'NoneType' object has no attribute 'type'
复制代码

这是由于在主节点上启动了Agent后,又将Agent scp到了其他节点上导致的,首次启动Agent,它会生成一个uuid,路径为:
  1. /opt/cm-5.1.3/lib/cloudera-scm-agent/uuid
复制代码

这样的话每台机器上的Agent的uuid都是一样的了,就会出现紊乱的情况。

解决方案:
删除


  1. /opt/cm-5.1.3/lib/cloudera-scm-agent/
复制代码

目录下的所有文件。
清空主节点CM数据库。














回复

使用道具 举报

zhzhang 发表于 2015-1-6 17:13:42
nextuser 发表于 2015-1-6 16:24
7182 是agent通信端口
首先检查下agent是不是挂掉了

非常感谢指点,1. /usr/bin/host已经重命名
2./opt/cm-5.1.3/lib/cloudera-scm-agent/里面的东西也已经清空
但是我发现我还是启动不了agent,也就是说的那个7182端口,报错还和之前一样
回复

使用道具 举报

bioger_hit 发表于 2015-1-6 23:20:22
zhzhang 发表于 2015-1-6 15:46
[06/Jan/2015 15:45:05 +0000] 3293 MainThread agent        ERROR    Heartbeating to 192.168.1.110:7 ...
看下7182端口是否被暂用,检查下网络,防火墙值之类的
回复

使用道具 举报

12下一页
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条