hbase的regionServer无法通过Master节点启动的问题，求助！

本帖最后由 gaobangsheng 于 2014-6-26 20:41 编辑

配置了hbase的集群，两个主节点，三个regionserver节点，hmaster节点上通过start-hbase.sh只能启动Hmaster节点,从节点启动后报错退出。
但是regionserver节点上，如果我通过手工启动

hbase-daemon.sh start regionserver
复制代码

来启动是完全正常的，也不报错。启动后也能正常的对hbase进行数据操作。

现在的问题是，通过主节点的start-hbase.sh启动后，regionserver启动后退出，报错如下：
另外，我的hadoop是配置的HA高可用，通过zookeeper来自动切换，同时hbase也是采用的外置zookeeper配置的。

2014-06-26 11:58:20,648 FATAL [regionserver60020] regionserver.HRegionServer: ABORTING region server hdp-s3,60020,1403755098845: Initialization of RS failed. Hence aborting RS.


2014-06-26 11:58:20,645 INFO  [regionserver60020] ipc.RpcServer: Stopping server on 60020
2014-06-26 11:58:20,648 FATAL [regionserver60020] regionserver.HRegionServer: ABORTING region server hdp-s3,60020,1403755098845: Initialization of RS failed.  Hence aborting RS.
java.io.IOException: java.lang.reflect.InvocationTargetException
        at org.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:416)
        at org.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:393)
        at org.apache.hadoop.hbase.client.HConnectionManager.getConnection(HConnectionManager.java:274)
        at org.apache.hadoop.hbase.catalog.CatalogTracker.<init>(CatalogTracker.java:151)
        at org.apache.hadoop.hbase.regionserver.HRegionServer.initializeZooKeeper(HRegionServer.java:739)
        at org.apache.hadoop.hbase.regionserver.HRegionServer.preRegistrationInitialization(HRegionServer.java:702)
        at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:837)
        at java.lang.Thread.run(Thread.java:722)
Caused by: java.lang.reflect.InvocationTargetException
        at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
        at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.lang.reflect.Constructor.newInstance(Constructor.java:525)
        at org.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:414)
        ... 7 more
Caused by: java.lang.ExceptionInInitializerError
        at org.apache.hadoop.hbase.ClusterId.parseFrom(ClusterId.java:64)
        at org.apache.hadoop.hbase.zookeeper.ZKClusterId.readClusterIdZNode(ZKClusterId.java:69)
        at org.apache.hadoop.hbase.client.ZooKeeperRegistry.getClusterId(ZooKeeperRegistry.java:83)
        at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.retrieveClusterId(HConnectionManager.java:857)
        at org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.<init>(HConnectionManager.java:662)
        ... 12 more
复制代码

请高人指点，这个错误如何解决？另外，网找找了一下，有人说是时钟不一致的问题，我查了，我的集群没有这个问题。

nettman · 发表于 2014-7-4 01:16:33

清理一下tmp里的数据，把hdfs里的hbase数据也都清理了，同时再清理tmp，检查各个节点是否有残留hbase进程，kill掉，然后在重启一下集群。

sstutu · 发表于 2014-6-26 20:55:04

1.你是通过什么方式来确定时间是一致还是不一致的，眼睛？手工对比？最好安装ntp的方式来排除这个可能性。ntp的安装可参考ubuntu ntp时间同步服务器搭建与使用

2.还有另外一个原因就是权限、配置文件造成的。
可以对比下面内容：
hbase 0.96整合到hadoop2.2三个节点全分布式安装高可靠文档

hyj · 发表于 2014-6-26 21:04:56

你看一下端口60020是个什么情况，还有具体看一下启动日志到底报的什么错，就是启动的时候，遇到了阻碍，这个阻碍，比如创建文件失败等。
建议还是先看看日志，不知道日志的位置，可以参考这篇帖子 Hadoop日志位置在哪里？确切日志位置指定

gaobangsheng · 发表于 2014-6-27 09:54:16

hyj 发表于 2014-6-26 21:04
你看一下端口60020是个什么情况，还有具体看一下启动日志到底报的什么错，就是启动的时候，遇到了阻碍，这 ...

启动时报的错，就是前面打印出来的错误啊。

hyj · 发表于 2014-6-27 10:12:44

本帖最后由 hyj 于 2014-6-27 10:29 编辑

gaobangsheng 发表于 2014-6-27 09:54
启动时报的错，就是前面打印出来的错误啊。

把你的hbase的日志目录截图看一下。并且发生这个错误的原因有很多,你需要更详细的日志。

xuanxufeng · 发表于 2014-6-27 11:13:11

大神这个问题是个疑难杂症，不好搞啊

nettman · 发表于 2014-6-27 11:25:17

hbase中除了有查看hfile文件的命令，也提供也查看hlog文件的命令：

在hbase的根目录下有个.logs目录，里面就是hlog文件，一台RegionServer机器对应一个文件。老的hlog文件会被移到.oldlogs目录:

[admin@bufer108081.tbc ~/dev/baoniu]$ hadoop fs -ls /hbase-0.90/.logs
Found 49 items
drwxrwxr-x   - hadoop hadoop,admin          0 2014-05-20 20:43 /hbase-0.90/.logs/bufer108056.tbc,30020,1400049798389
drwxrwxr-x   - hadoop hadoop,admin          0 2014-05-20 20:43 /hbase-0.90/.logs/bufer108057.tbc,30020,1400049798399
drwxrwxr-x   - hadoop hadoop,admin          0 2014-05-20 20:43 /hbase-0.90/.logs/bufer108058.tbc,30020,1400049798425
复制代码

命令的参数：

[admin@bufer108081.tbc ~/dev/baoniu]$  ~/hbase/bin/hbase org.apache.hadoop.hbase.regionserver.wal.HLog --dump
Usage: HLog <ARGS>
Arguments:
 --dump  Dump textual representation of passed one or more files
         For example: HLog --dump hdfs://example.com:9000/hbase/.logs/MACHINE/LOGFILE
 --split Split the passed directory of WAL logs
         For example: HLog --split hdfs://example.com:9000/hbase/.logs/DIR

[admin@bufer108081.tbc ~/dev/baoniu]$  ~/hbase/bin/hbase org.apache.hadoop.hbase.regionserver.wal.HLog --dump -h                                                 usage: HLog <filename...> [-h] [-j] [-p] [-r <arg>] [-s <arg>] [-w <arg>]
 -h,--help             Output help message
 -j,--json             Output JSON
 -p,--printvals        Print values
 -r,--region <arg>     Region to filter by. Pass region name; e.g.
                       '.META.,,1'
 -s,--sequence <arg>   Sequence to filter by. Pass sequence number.
 -w,--row <arg>        Row to filter by. Pass row name.
复制代码

通过以下命令就可以查看hlog文件的内容：

[admin@bufer108081.tbc ~/dev/baoniu]$ ~/hbase/bin/hbase org.apache.hadoop.hbase.regionserver.wal.HLog --dump -p /hbase-0.90/.logs/bufer108118.tbc,30020,1400049798450/bufer108118.tbc%2C30020%2C1400049798450.1400557412298
14/05/20 15:06:49 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS
Sequence 8347119 from region a98994dbcf5b1fcd47f69efcf804c385 in table test
  Action:
    row: 0042:2100520170149
    column: a:title
    at time: Tue May 20 11:43:45 CST 2014
    value: \xE5\x95\x86\xE5\x93\x81\xE4\xB8\xADxE8\xAF\x95\xE5\xAE\x9D\xE8\xB4\x9D
  Action:
    row: 0042:2100520170149
    column: a:user_id
    at time: Tue May 20 11:43:45 CST 2014
    value: 778896
  Action:
    row: 0042:2100520170149
    column: a:pict_url
    at time: Tue May 20 11:43:45 CST 2014
    value: 19/60/74/196074.jpg
  Action:
    row: 0042:2100520170149
    column: a:categ
    at time: Tue May 20 11:43:45 CST 2014
    value: 1101
  Action:
    row: 0042:2100520170149
    column: a:minimum_bid
    at time: Tue May 20 11:43:45 CST 2014
    value: 2000.00
  Action:
    row: 0042:2100520170149
    column: a:reserve_price
    at time: Tue May 20 11:43:45 CST 2014
    value: 2000.00
复制代码

gaobangsheng · 发表于 2014-6-28 07:03:05

nettman 发表于 2014-6-27 11:25
hbase中除了有查看hfile文件的命令，也提供也查看hlog文件的命令：

在hbase的根目录下有个.logs目录 ...

问题已基本定位，但是没有找到解决方案：
我的Hadoop配置的是QJM的HA方式，有两个Namenode节点。我的hadoop中的部分配置如下：


core-site.xml如下

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://mycluster</value>
</property>
复制代码


hdfs-site.xml如下
<property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
</property>

<property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
</property>

<property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>hdp-m1:9000</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>hdp-m2:9000</value>
</property>
复制代码

我将hbase数据存放路径指向了一个虚拟的hdfs地址：hdfs://mycluster/hbase。
这样的话，如果某个namenode挂掉，我的hbase仍然可以访问。
这样的配置方式，就会出现在hmaster无法启动所有hbase节点的问题，但是我逐过的手工启动完全正常，并且hbase集群也正常工作。

如果我修改hbase的指向为 hdfs://hdp-m1:9000/hbase，则hbase集群通过hmaster将所有节点都同时正常的启动了。
所以，问题可以定位是配置了HA的hadoop的NameNode指向有点问题。

但是，尝试修改了很多次配置，还是没有找到好办法。我也不希望只将hbase指向一个节点，这样的话，如果发现failover，我也得重新配置hbase。

看看大家有没有hadoop 的ha环境的hbase配置经验？

desehawk · 发表于 2014-6-28 14:34:52

本帖最后由 desehawk 于 2014-6-28 14:43 编辑
按照原理来讲，这不会有影响的，两个namenode一个active，一个是standby。二者的数据也是同步的。他们的访问方式通过代理名称mycluster来访问。
也就是说如果你hdp-m1为active则hdfs://mycluster：9000/hbase是访问的hdp-m1，相当于：
hdfs://hdp-m1:9000/hbase

hdp-m2为active则hdfs://mycluster：9000/hbase是访问的hdp-m2，相当于：
hdfs://hdp-m2:9000/hbase

原理我懂，是这样的，但是目前还没有配置，你试试
hdfs://mycluster：9000/hbase

gaobangsheng · 发表于 2014-6-30 08:50:40

desehawk 发表于 2014-6-28 14:34
本帖最后由 desehawk 于 2014-6-28 14:43 编辑
按照原理来讲，这不会有影响的，两个namenode一个active， ...

 Port 9000 specified in URI hdfs://mycluster:9000/hbase but host 'mycluster' is a logical (HA) namenode and does not use port information.
复制代码

这样写更错啊，不能带端口：

图文精华

hbase的regionServer无法通过Master节点启动的问题，求助！

已有(39)人评论

回帖奖励 +3 云币

回帖奖励 +3 云币

活跃会员

热心会员

优秀版主

推荐 /2