因为主机时间不同步导致的hbase zookeeper 节点宕机奔溃一例-阿里云开发者社区

因为主机时间不同步导致的hbase zookeeper 节点宕机奔溃一例

2021-11-02 970

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前几天，升级hadoop/hbase 集群，新添加了几十台机器，硬件部门，安装好主机os 后就交付给我们了，安装好软件环境，配置好，就启动接入集群了，运行了一个礼拜，系统运行正常。昨天的时候淘汰一台旧机器，上面跑了zookeeper ，需要准备一个新的zookeeper 节点来代替，如实就找了一台hbase 节点上启动了zookeeper 这个时候问题来了， zookeeper 启动后总是在报错，一直在确定自己的状态。

前几天，升级hadoop/hbase 集群，新添加了几十台机器，

硬件部门，安装好主机os 后就交付给我们了，

安装好软件环境，配置好，就启动接入集群了，运行了一个礼拜，系统运行正常。

昨天的时候淘汰一台旧机器，上面跑了zookeeper ，需要准备一个新的zookeeper 节点来代替，如实就找了一台hbase 节点上启动了zookeeper

这个时候问题来了， zookeeper 启动后总是在报错，一直在确定自己的状态。

[code]
2015-07-01 17:43:10,666 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 400
2015-07-01 17:43:11,066 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 800
2015-07-01 17:43:11,482 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 4, my id = 6, error =
java.net.SocketException: Connection reset

    at java.net.SocketInputStream.read(SocketInputStream.java:168)
    at java.net.SocketInputStream.read(SocketInputStream.java:182)
    at java.io.DataInputStream.readInt(DataInputStream.java:370)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager$RecvWorker.run(QuorumCnxManager.java:747)

2015-07-01 17:43:11,485 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupting SendWorker
2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupted while waiting for message on queue
java.lang.InterruptedException

    at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.reportInterruptAfterWait(AbstractQueuedSynchronizer.java:1961)
    at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2038)
    at java.util.concurrent.ArrayBlockingQueue.poll(ArrayBlockingQueue.java:342)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager.pollSendQueue(QuorumCnxManager.java:831)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager.access$500(QuorumCnxManager.java:62)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager$SendWorker.run(QuorumCnxManager.java:667)

2015-07-01 17:43:11,488 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification: 6 (n.leader), 0x0 (n.zxid), 0x1 (n.round), LOOKING (n.state), 6 (n.sid), 0x0 (n.peerEPoch), LOOKING (my state)
2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 5, my id = 6, error =
java.io.EOFException

[/code]

当时想，没有道理，新机加集群的时候，我们也是新增了2个买QQ号码zookeeper 节点，就直接加进去了，运行ok 。

想想，要不把hbase 的这个节点也重启下，看看什么情况。

于是就是重启了hbase 的节点，这下问题来了：

[code]

org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoop-8-25,60020,1435724000483 has been rejected; Reported time is too far out of sync with master. Time difference of 30737ms > max allowed of 30000ms

    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:513)
    at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:95)
    at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:79)
    at org.apache.hadoop.hbase.regionserver.HRegionServer.reportForDuty(HRegionServer.java:1864)
    at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:671)
    at java.lang.Thread.run(Thread.java:619)

[/code]

节点起不来，无法接入集群了，已启动，然后退出了，然后留下pid 文件进程退出。

日志就报上面的错误。

一般情况先我们主机系统都是安装了时间同步的，所以处理问题的时候根本就没有从主机时间不同这个方面来考虑，认为是系统配置什么方面除问题了，走了一些弯路。

一直无解，最后还是看看时间同步吧，一看问题来了， hbase 节点比 namenode 节点时慢了30多秒，正好应对了上面的时间的告警。

然后改了时间，这下ok 了，节点直接就加进去了。

通知硬件部门，配置时间同步，结果第二天早上整个系统里新加的机器，除了新修改过那台外，都掉线了，原来昨天硬件部门配置的ntp 服务同步除问题，新加机器时间都慢了超过30秒了。

赶紧处理掉。

时间完成同步后，整个集群就可以起来了。起来后，因为还有有节点是正常的，导致数据不均匀了，性能上冒了一会尖尖，然后就平稳了。

记录下这个case 给兄弟们一个提醒。

因为主机时间不同步导致的hbase zookeeper 节点宕机奔溃一例

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

因为主机时间不同步导致的hbase zookeeper 节点宕机奔溃 一例

热门文章

最新文章

相关课程

相关电子书

因为主机时间不同步导致的hbase zookeeper 节点宕机奔溃一例