service corosync start导致gcadmin报错

coor节点gcadmin执行报错
[root@Node1 gcinstall]# cexec "gcadmin"
************************* coor *************************
--------- 172.16.128.11---------
[gcadmin] Could not initialize CRM instance error: [12]->[GC_AIS_ERR_NOT_EXIST]
--------- 172.16.128.12---------
exec_cmd_show_cluster crm get cluster mode ERROR:  [6]-->[GC_AIS_ERR_TRY_AGAIN]
gcadmin show cluster failed
--------- 172.16.128.13---------
exec_cmd_show_cluster crm get cluster mode ERROR:  [6]-->[GC_AIS_ERR_TRY_AGAIN]
gcadmin show cluster failed
--------- 172.16.128.14---------
exec_cmd_show_cluster crm get cluster mode ERROR:  [6]-->[GC_AIS_ERR_TRY_AGAIN]
gcadmin show cluster failed
可以看到,11节点返回结果是[12]->[GC_AIS_ERR_NOT_EXIST],而其他节点返回结果都是[6]-->[GC_AIS_ERR_TRY_AGAIN]


1 回答

进一步查看coor节点corosync.log日志:
[root@Node1 gcinstall]# cexec "tail -n5 /var/log/corosync.log"
************************* coor *************************
--------- 172.16.128.11---------
Apr 18 06:11:13 corosync [MAIN  ] Completed service synchronization, ready to provide service.
Apr 18 06:11:15 corosync [TOTEM ] A processor joined or left the membership and a new membership was formed.
Apr 18 06:11:15 corosync [CPG   ] chosen downlist: sender r(0) ip(172.16.128.12) ; members(old:3 left:0)
--------- 172.16.128.12---------
Apr 19 00:18:50 corosync [LCK   ] lck_sync_process [ELECTION] 2 - 3
--------- 172.16.128.13---------
Apr 19 00:18:49 corosync [LCK   ] lck_sync_process [ELECTION] 2 - 3
--------- 172.16.128.14---------
Apr 19 00:18:50 corosync [LCK   ] lck_sync_process [ELECTION] 2 - 3
从上面日志信息看到,11节点corosync.log日志已经停止更新,其他节点日志不停输出lck_sync_process [ELECTION] 2 - 3信息。
怀疑gcware动态库没有加载成功,pmap查看corosync进程。
11节点pmap
[root@Node1 ~]# pmap 3023 |grep gcware
12节点pmap
[root@Node1 ~]# pmap 3023 |grep gcware
00007f13f8137000    340K r-x--  /usr/libexec/lcrso/gcware_clm.lcrso
00007f13f818c000   2044K -----  /usr/libexec/lcrso/gcware_clm.lcrso
00007f13f838b000      8K rw---  /usr/libexec/lcrso/gcware_clm.lcrso
00007f13f838d000    496K r-x--  /usr/libexec/lcrso/gcware_crm.lcrso
00007f13f8409000   2048K -----  /usr/libexec/lcrso/gcware_crm.lcrso
00007f13f8609000      8K rw---  /usr/libexec/lcrso/gcware_crm.lcrso
00007f13f860c000    416K r-x--  /usr/libexec/lcrso/gcware_lck.lcrso
00007f13f8674000   2044K -----  /usr/libexec/lcrso/gcware_lck.lcrso
00007f13f8873000      8K rw---  /usr/libexec/lcrso/gcware_lck.lcrso
可以看到11节点gcware的程序库没有加载成功,这种情况通常是service corosync start方式启动导致。
通过service gcware restart方式重启服务后,gcadmin恢复正常。

2018-8-10 15:19

撰写回答

您需要登录后才可以回帖 登录 | 立即注册

提问者

发布167
回答440

相关资料