'Re: [Linux-ha-jp] =?utf-8?b?U2FtYmHnkrDlooPjga5ubWLlgZzmraLjgr/jgqQ=?='

[prev in list] [next in list] [prev in thread] [next in thread] 

List:       linux-ha-jp
Subject:    Re: [Linux-ha-jp]  =?utf-8?b?U2FtYmHnkrDlooPjga5ubWLlgZzmraLjgr/jgqQ=?=
From:       renayama19661014 () ybb ! ne ! jp
Date:       2021-12-23 3:58:03
Message-ID: 489123626.42875.1640231883236.JavaMail.yahoo () mail ! yahoo ! co ! jp
[Download RAW message or body]

原田さん

こんにちは、山内です。

ご連絡ありがとうございます。
承知いたしました。

うまく動作すると思いますが、また、何か有りましたら、ご連絡ください。

以上、宜しくお願いいたします。

----- Original Message -----

From: "harada" <ljpghn1101@gmail.com>
To: "renayama19661014@ybb.ne.jp" <renayama19661014@ybb.ne.jp>
Date: 2021/12/23 木 12:30
Subject: Re: Re: Re: Re: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて


山内様

ご返信ありがとうございます。
はい。インターフェースの設定をしていたので、bond0がサーバ起動時に、
pacemakerが立ち上がる前に起動しているのかなと予想します。
本来は、この設定は必要ないと判断しました。
そのため、一度、インターフェースの設定に仮想IPの情報を削除したうえで、
フェイルオーバー試験をしてみます。


2021年12月22日(水) 12:19 renayama19661014@ybb.ne.jp <renayama19661014@ybb.ne.jp>:
原田さん
 
 こんにちは、山内です。
 
 手元で確認したわけではありませんが、bond0がOS起動時に本来はVIP管理されるはずのアドレスを全て起動してくるということですね？
 
 であれば、問題に合致すると思われます。
 
 以上です。
 
 ----- Original Message -----
 
 From: "harada" <ljpghn1101@gmail.com>
 To: "renayama19661014@ybb.ne.jp" <renayama19661014@ybb.ne.jp>
 Date: 2021/12/22 水 11:21
 Subject: Re: Re: Re: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて
 
 
 山内様
 
 原因がおそらくわかりましたので、ご報告いたします。
 IP2重起動の原因として、/etc/sysconfig/network-scripts/ifcfg-bond0
 に、仮想IP7つの設定を入れていたからかと思います。
 
 まだ実施していないですが、このインターフェースの仮想IP設定を
 削除することで、再起動時に、2重起動が起こらないのかと思うのですが、
 ご意見をいただけないでしょうか。
 
 nmdが停止しない原因は調査中です。
 
 お手数をおかけしますが、宜しくお願いいたします。
 
 
 2021年12月21日(火) 12:41 <renayama19661014@ybb.ne.jp>:
 原田さん
 
 こんにちは、山内です。
 
 何かわかりましたら、情報共有して頂けると助かります。
 corosync/Pacemakerなどの不具合などであれば、コミュニティの方へも報告したいと思います。
 
 以上、宜しくお願いいたします。
 
 
 ----- Original Message -----
 
 From: "harada" <ljpghn1101@gmail.com>
 To: "renayama19661014@ybb.ne.jp" <renayama19661014@ybb.ne.jp>
 Date: 2021/12/21 火 11:44
 Subject: Re: Re: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて
 
 
 山内様
 
 詳細にご確認、ご説明いただきありがとうございます！！
 本番リリース前は、このような事象は発生しておりませんでした。
 しかし、本番稼働後、リソース追加でNFSなどを入れたため、
 構成変更後のテストは初めてでした。あと、IPも本番稼働前は、IPを入れられないため、
 仮の3つほどのテストIPでテストしていました。
 
 
 3) /usr/lib/ocf/resource.d/IPaddr2に-xオプションを指定して、２重起動と判定される場合の詳細を見てみる。(これが一番有効かと思います) \
  こちらをまず確認してみようと思います！
 ありがとうございました！
 
 
 2021年12月21日(火) 9:05 renayama19661014@ybb.ne.jp <renayama19661014@ybb.ne.jp>:
 (すいません、メール送信先をミスしていましたので、再送します）
 
 原田さん
 
 おはようございます。山内です。
 
 再度、ログを見て見ましたが、serv1のフェンシングはうまく動作しているようです。
 
 ---
 ★rebootは成功
 Dec 15 20:14:46 [2102] serv2 stonith-ng:  notice: remote_op_done:   Operation \
'reboot' targeting serv1 on serv2 for crmd.2106@serv2.4f61539e: OK  
 [1932] serv2 corosyncnotice [TOTEM ] A processor failed, forming new configuration.
 [1932] serv2 corosyncnotice [TOTEM ] A new membership (192.168.X.XXX:583) was \
formed. Members left: 1  [1932] serv2 corosyncnotice [TOTEM ] Failed to receive the \
leave message. failed: 1  [1932] serv2 corosyncwarning [CPG  ] downlist left_list: 1 \
received  
 
 ★serv1側も再起動
 [1977] serv1 corosyncnotice [MAIN ] Corosync Cluster Engine ('2.4.5'): started and \
ready to provide service.  [1977] serv1 corosyncinfo  [MAIN ] Corosync built-in \
features: dbus systemd xmlconf qdevices qnetd snmp libcgroup pie relro bindnow  \
[1977] serv1 corosyncnotice [TOTEM ] Initializing transport (UDP/IP Unicast).  [1977] \
serv1 corosyncnotice [TOTEM ] Initializing transmit/receive security (NSS) crypto: \
none hash: none  [1977] serv1 corosyncnotice [TOTEM ] Initializing transport (UDP/IP \
Unicast).  [1977] serv1 corosyncnotice [TOTEM ] Initializing transmit/receive \
security (NSS) crypto: none hash: none  
 ★serv1側もクラスタに再参加
 [1932] serv2 corosyncnotice [TOTEM ] A new membership (192.168.X.XXX:588) was \
formed. Members joined: 1  [1932] serv2 corosyncwarning [CPG  ] downlist left_list: 0 \
received  [1932] serv2 corosyncwarning [CPG  ] downlist left_list: 0 received
 [1932] serv2 corosyncnotice [QUORUM] Members[2]: 1 2
 [1932] serv2 corosyncnotice [MAIN ] Completed service synchronization, ready to \
provide service.  
 ★serv2にFOしたが、serv1も参加してきたので、serv1側のリソースの起動状態を確認
 Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_online_status_fencing:   \
Node serv2 is active  Dec 15 20:10:19 [2129] serv2  pengine:   info: \
determine_online_status:   Node serv2 is online  Dec 15 20:10:19 [2129] serv2  \
pengine:   info: determine_online_status_fencing:   Node serv1 is active  Dec 15 \
20:10:19 [2129] serv2  pengine:   info: determine_online_status:   Node serv1 is \
online  Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation \
monitor found resource VirtualIP active on serv2  Dec 15 20:10:19 [2129] serv2  \
pengine:   info: determine_op_status: Operation monitor found resource res_NFS active \
on serv2  Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: \
Operation monitor found resource VirtualIP2 active on serv2  Dec 15 20:10:19 [2129] \
serv2  pengine:   info: determine_op_status: Operation monitor found resource \
VirtualIP3 active on serv2  Dec 15 20:10:19 [2129] serv2  pengine:   info: \
determine_op_status: Operation monitor found resource VirtualIP4 active on serv2  Dec \
15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation monitor \
found resource VirtualIP5 active on serv2  Dec 15 20:10:19 [2129] serv2  pengine:   \
info: determine_op_status: Operation monitor found resource VirtualIP6 active on \
serv2  Dec 15 20:10:19 [2129] serv2  pengine:   info: determine_op_status: Operation \
monitor found resource VirtualIP7 active on serv2  Dec 15 20:10:19 [2129] serv2  \
pengine:   info: unpack_node_loop:  Node 2 is already processed  Dec 15 20:10:19 \
[2129] serv2  pengine:   info: unpack_node_loop:  Node 1 is already processed  Dec 15 \
20:10:19 [2129] serv2  pengine:   info: unpack_node_loop:  Node 2 is already \
processed  Dec 15 20:10:19 [2129] serv2  pengine:   info: unpack_node_loop:  Node 1 \
is already processed  Dec 15 20:10:19 [2129] serv2  pengine:   info: clone_print: \
Clone Set: ping-clone [ping]  Dec 15 20:10:19 [2129] serv2  pengine:   info: \
short_print:   Started: [ serv2 ]  Dec 15 20:10:19 [2129] serv2  pengine:   info: \
short_print:   Stopped: [ serv1 ]  Dec 15 20:10:19 [2129] serv2  pengine:   info: \
common_print:    prd_fence    (stonith:fence_ilo5):  Started serv2  Dec 15 20:10:19 \
[2129] serv2  pengine:   info: common_print:    prd2_fence   (stonith:fence_ilo5):  \
Stopped  Dec 15 20:10:19 [2129] serv2  pengine:   info: group_print: Resource Group: \
rg01  Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       ShareDir  \
(ocf::heartbeat:Filesystem):  Started serv2  Dec 15 20:10:19 [2129] serv2  pengine:   \
info: common_print:       res_NFS  (systemd:nfs-server):  Started serv2  Dec 15 \
20:10:19 [2129] serv2  pengine:   info: common_print:       res_exportfs_NFS  \
(ocf::heartbeat:exportfs):   Started serv2  Dec 15 20:10:19 [2129] serv2  pengine:   \
info: common_print:       VirtualIP (ocf::heartbeat:IPaddr2):    Started serv2  Dec \
15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP2 \
(ocf::heartbeat:IPaddr2):    Started serv2  Dec 15 20:10:19 [2129] serv2  pengine:   \
info: common_print:       VirtualIP3 (ocf::heartbeat:IPaddr2):    Started serv2  Dec \
15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP4 \
(ocf::heartbeat:IPaddr2):    Started serv2  Dec 15 20:10:19 [2129] serv2  pengine:   \
info: common_print:       VirtualIP5 (ocf::heartbeat:IPaddr2):    Started serv2  Dec \
15 20:10:19 [2129] serv2  pengine:   info: common_print:       VirtualIP6 \
(ocf::heartbeat:IPaddr2):    Started serv2  Dec 15 20:10:19 [2129] serv2  pengine:   \
info: common_print:       VirtualIP7 (ocf::heartbeat:IPaddr2):    Started serv2  Dec \
15 20:10:19 [2129] serv2  pengine:   info: common_print:       Samba   (systemd:smb): \
Started serv2  Dec 15 20:10:19 [2129] serv2  pengine:   info: common_print:       \
Named   (systemd:nmb): Started serv2  Dec 15 20:10:19 [2129] serv2  pengine:   info: \
common_print:       res_Mailto (ocf::heartbeat:MailTo):    Started serv2  
 
 Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor \
operation ping:1_monitor_0 on serv1 | action 16  Dec 15 20:10:19 [2130] serv2    \
crmd:  notice: te_rsc_command:   Initiating monitor operation prd_fence_monitor_0 on \
serv1 | action 17  Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   \
Initiating monitor operation prd2_fence_monitor_0 on serv1 | action 18  Dec 15 \
20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor \
operation ShareDir_monitor_0 on serv1 | action 19  Dec 15 20:10:19 [2130] serv2    \
crmd:  notice: te_rsc_command:   Initiating monitor operation res_NFS_monitor_0 on \
serv1 | action 20  Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   \
Initiating monitor operation res_exportfs_NFS_monitor_0 on serv1 | action 21  Dec 15 \
20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor \
operation VirtualIP_monitor_0 on serv1 | action 22  Dec 15 20:10:19 [2130] serv2    \
crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP2_monitor_0 on \
serv1 | action 23  Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   \
Initiating monitor operation VirtualIP3_monitor_0 on serv1 | action 24  Dec 15 \
20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor \
operation VirtualIP4_monitor_0 on serv1 | action 25  Dec 15 20:10:19 [2130] serv2    \
crmd:  notice: te_rsc_command:   Initiating monitor operation VirtualIP5_monitor_0 on \
serv1 | action 26  Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   \
Initiating monitor operation VirtualIP6_monitor_0 on serv1 | action 27  Dec 15 \
20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor \
operation VirtualIP7_monitor_0 on serv1 | action 28  Dec 15 20:10:19 [2130] serv2    \
crmd:  notice: te_rsc_command:   Initiating monitor operation Samba_monitor_0 on \
serv1 | action 29  Dec 15 20:10:19 [2130] serv2    crmd:  notice: te_rsc_command:   \
Initiating monitor operation Named_monitor_0 on serv1 | action 30  Dec 15 20:10:19 \
[2130] serv2    crmd:  notice: te_rsc_command:   Initiating monitor operation \
res_Mailto_monitor_0 on serv1 | action 31  
 
 ★serv1側の起動確認でも、VIPは起動済と判定、res_MailToは未起動と判定。
 Dec 15 20:10:19 [2216] serv1    crmd:  notice: process_lrm_event:  Result of probe \
operation for VirtualIP on serv1: 0 (ok) | call=30 key=VirtualIP_monitor_0 \
confirmed=true cib-update=37  Dec 15 20:10:19 [2211] serv1    cib:   info: \
cib_process_request: Forwarding cib_modify operation for section status to all \
(origin=local/crmd/37)  Dec 15 20:10:19 [2216] serv1    crmd:  notice: \
process_lrm_event:  Result of probe operation for res_Mailto on serv1: 7 (not \
running) | call=66 key=res_Mailto_monitor_0 confirmed=true cib-update=38  \
(他のVIPも起動済と判定)  
 ★すでにVIPの起動がserv1で確認
 Dec 15 20:16:20 [2106] serv2    crmd: warning: status_from_rc:   Action 23 \
(VirtualIP2_monitor_0) on serv1 failed (target: 7 vs. rc: 0): Error  Dec 15 20:16:20 \
[2106] serv2    crmd:  notice: abort_transition_graph:   Transition aborted by \
operation VirtualIP2_monitor_0 'modify' on serv1: Event failed | \
magic=0:0;23:2:7:d2b6e786-2b16-40b7-869b-5abbd404ced1 cib=0.240.370 \
source=match_graph_event:299 complete=false  Dec 15 20:16:20 [2106] serv2    crmd:   \
info: match_graph_event:  Action VirtualIP2_monitor_0 (23) confirmed on serv1 (rc=0)  \
Dec 15 20:16:20 [2106] serv2    crmd:   info: process_graph_event: Detected action \
(2.23) VirtualIP2_monitor_0.34=ok: failed  (他のVIPも同様)
 
 ★重複起動となっている
 Dec 15 20:10:20 [2129] serv2  pengine:   info: clone_print: Clone Set: ping-clone \
[ping]  Dec 15 20:10:20 [2129] serv2  pengine:   info: short_print:   Started: [ \
serv1 serv2 ]  Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:    \
prd_fence    (stonith:fence_ilo5):  Started serv2  Dec 15 20:10:20 [2129] serv2  \
pengine:   info: common_print:    prd2_fence   (stonith:fence_ilo5):  Started serv1  \
Dec 15 20:10:20 [2129] serv2  pengine:   info: group_print: Resource Group: rg01  Dec \
15 20:10:20 [2129] serv2  pengine:   info: common_print:       ShareDir  \
(ocf::heartbeat:Filesystem):  Started serv2  Dec 15 20:10:20 [2129] serv2  pengine:   \
info: common_print:       res_NFS  (systemd:nfs-server):  Started serv2  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:       res_exportfs_NFS  \
(ocf::heartbeat:exportfs):   Started serv2  Dec 15 20:10:20 [2129] serv2  pengine:   \
info: common_print:       VirtualIP (ocf::heartbeat:IPaddr2):    Started  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP2 \
(ocf::heartbeat:IPaddr2):    Started  Dec 15 20:10:20 [2129] serv2  pengine:   info: \
common_print:        1 : serv2  Dec 15 20:10:20 [2129] serv2  pengine:   info: \
common_print:        2 : serv1  Dec 15 20:10:20 [2129] serv2  pengine:   info: \
common_print:       VirtualIP3 (ocf::heartbeat:IPaddr2):    Started  Dec 15 20:10:20 \
[2129] serv2  pengine:   info: common_print:        1 : serv2  Dec 15 20:10:20 [2129] \
serv2  pengine:   info: common_print:        2 : serv1  Dec 15 20:10:20 [2129] serv2  \
pengine:   info: common_print:       VirtualIP4 (ocf::heartbeat:IPaddr2):    Started  \
Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:       VirtualIP5 \
(ocf::heartbeat:IPaddr2):    Started  Dec 15 20:10:20 [2129] serv2  pengine:   info: \
common_print:        1 : serv2  Dec 15 20:10:20 [2129] serv2  pengine:   info: \
common_print:        2 : serv1  Dec 15 20:10:20 [2129] serv2  pengine:   info: \
common_print:       VirtualIP6 (ocf::heartbeat:IPaddr2):    Started  Dec 15 20:10:20 \
[2129] serv2  pengine:   info: common_print:        1 : serv2  Dec 15 20:10:20 [2129] \
serv2  pengine:   info: common_print:        2 : serv1  Dec 15 20:10:20 [2129] serv2  \
pengine:   info: common_print:       VirtualIP7 (ocf::heartbeat:IPaddr2):    Started  \
Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:        1 : serv2  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:        2 : serv1  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: common_print:       Samba   (systemd:smb): \
Started serv2  Dec 15 20:10:20 [2129] serv2  pengine:   info: common_print:       \
Named   (systemd:nmb): Started serv2  Dec 15 20:10:20 [2129] serv2  pengine:   info: \
common_print:       res_Mailto (ocf::heartbeat:MailTo):    Started serv2  Dec 15 \
20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor (10s) \
for ping:1 on serv1  Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: \
Start recurring monitor (3600s) for prd2_fence on serv1  Dec 15 20:10:20 [2129] serv2 \
pengine:  error: native_create_actions:    Resource VirtualIP is active on 2 nodes \
(attempting recovery)  Dec 15 20:10:20 [2129] serv2  pengine:  notice: \
native_create_actions:    See \
https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information  \
Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor \
(10s) for VirtualIP on serv2  Dec 15 20:10:20 [2129] serv2  pengine:  error: \
native_create_actions:    Resource VirtualIP2 is active on 2 nodes (attempting \
recovery)  Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    \
See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information \
Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor \
(10s) for VirtualIP2 on serv2  Dec 15 20:10:20 [2129] serv2  pengine:  error: \
native_create_actions:    Resource VirtualIP3 is active on 2 nodes (attempting \
recovery)  Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    \
See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information \
Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor \
(10s) for VirtualIP3 on serv2  Dec 15 20:10:20 [2129] serv2  pengine:  error: \
native_create_actions:    Resource VirtualIP4 is active on 2 nodes (attempting \
recovery)  Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    \
See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information \
Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor \
(10s) for VirtualIP4 on serv2  Dec 15 20:10:20 [2129] serv2  pengine:  error: \
native_create_actions:    Resource VirtualIP5 is active on 2 nodes (attempting \
recovery)  Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    \
See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information \
Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor \
(10s) for VirtualIP5 on serv2  Dec 15 20:10:20 [2129] serv2  pengine:  error: \
native_create_actions:    Resource VirtualIP6 is active on 2 nodes (attempting \
recovery)  Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    \
See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information \
Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor \
(10s) for VirtualIP6 on serv2  Dec 15 20:10:20 [2129] serv2  pengine:  error: \
native_create_actions:    Resource VirtualIP7 is active on 2 nodes (attempting \
recovery)  Dec 15 20:10:20 [2129] serv2  pengine:  notice: native_create_actions:    \
See https://wiki.clusterlabs.org/wiki/FAQ#Resource_is_Too_Active for more information \
Dec 15 20:10:20 [2129] serv2  pengine:   info: RecurringOp: Start recurring monitor \
                (10s) for VirtualIP7 on serv2
 ---
 
 serv1が再起動した後にIPaddr2(VIPリソース）が全て起動済として判定している事が問題となっているようです。
 ※VIP以外は問題はない模様。
 
 この事象ですが？必ず再現するのでしょうか？あまり、見たことがない事象です。
 
 以下のような確認をされると良いと思います。
 
 1) IPaddr2リソースのパラメータを見直してみる。(※通常は起動しているので、問題はないと思いますが）
 2) OS起動時にcorosync/Pacemakerを自動起動にしている場合は、自動起動を一旦やめて、serv1が再起動した後、手動でcorosync/Pacemakerを起動してみる
  3) /usr/lib/ocf/resource.d/IPaddr2に-xオプションを指定して、２重起動と判定される場合の詳細を見てみる。(これが一番有効かと思います)
  
 以上、宜しくお願いいたします。
 
 ----- Original Message -----
 
 From: "harada" <ljpghn1101@gmail.com>
 To: "renayama19661014@ybb.ne.jp" <renayama19661014@ybb.ne.jp>
 Date: 2021/12/21 火 00:07
 Subject: Re: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて
 
 
 山内様
 
 ご確認いただき、ありがとうございます。
 また、再度見ていただけるとのことで、 大変申し訳ございません。
 
 当日の動きですが、
 1号機で20:07にシャットダウンを実施したあと、
 sarコマンドのログから、20:10にサーバ再起動した履歴がありました。
 その後、2号機で20:13に再起動され、
 20:16に1号機でまた再起動され、
 20:19に2号機で再起動された履歴がありました。
 その後なんとか自力で止めました。。
 
 たしかに山内様の仰るように2重でリソースが起動しているようなログがありました。
 起動のタイミングなどに問題がありそうでしょうか。
 
 フェンシングの設定は下記にように設定しております。
 
 # pcs stonith create prd_fence fence_ilo5 \
 pcmk_host_list=serv1 ipaddr=192.168.X.XXX \
 login=XXXXX passwd="XXXXXXX" \
 pcmk_reboot_action=reboot pcmk_monitor_timeout=60s \
 op start timeout=60s on-fail=restart monitor timeout=60s interval=3600s \
on-fail=restart \  stop timeout=60s on-fail=ignore
 
 # pcs stonith create prd2_fence fence_ilo5 \
 pcmk_host_list=serv2 ipaddr=192.168.X.XXX \
 login=XXXXX passwd="XXXXXXX" \
 pcmk_reboot_action=reboot pcmk_monitor_timeout=60s \
 op start timeout=60s on-fail=restart monitor timeout=60s interval=3600s \
on-fail=restart \  stop timeout=60s on-fail=ignore
 
 申し訳ございませんが、何かわかりましたらアドバイスいただけますと幸いです。
 
 
 2021年12月20日(月) 19:33 <renayama19661014@ybb.ne.jp>:
 原田さん
 
 こんばんは、山内です。
 
 ざっと見ただけですが、srv1が停止時のエラーからフェンシングされて再参加した時、リソースの２重起動が検知されているようです。
 
 fence_ilo5は使ったことがないのですが、ちゃんと、serv1は、再起動されているのでしょうか？
 
 ※明日、もう少し見てみる予定ですが、ちゃんとserv1が再起動されて、その後、リソースが解放されているのか気になります。
 
 
 以上です。
 
 
 ----- Original Message -----
 
 From: "harada" <ljpghn1101@gmail.com>
 To: "renayama19661014@ybb.ne.jp" <renayama19661014@ybb.ne.jp>
 Date: 2021/12/20 月 17:46
 Subject: Re: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて
 
 
 山内様
 
 ご返信ありがとうございます！
 1つ誤りがございました。申し訳ございません。
 今回のマシン2台は、仮想マシンでございませんでした。
 そのため、フェンシングは、fence_ilo5を利用しています。
 ログも自分なりに見たのですが、判断ができず、、重いですが、お送りしますので、
 何かアドバイスいただけますと幸いです。
 1号機と2号機のログです。
 
 2021年12月20日(月) 13:50 <renayama19661014@ybb.ne.jp>:
 原田さん
 
 こんにちは、山内です。
 
 >下記の環境で、切り替え試験をするために、1号機をシャットダウンしたところ、nmbが停止しない状態が続き、フェンス処理が走りました。
 >その後、2号機にフェイルオーバーしたかと思ったら、再度2号機でフェンスが走り、1号機へとフェイルオーバのような事象が繰り返され、何とかメンテナンスモードを実行することで、いったりきたりするリソースを止めることができました。
  
 ログを見ないと何とも言えませんが。。。
 この部分で、「再度２号機でフェンスが走り。。。」とありますので、何か２号機で故障が起きている為、再度、参加してきた１号機でフェンシングが実行されたのではないでしょうか？
 
 フェンシングリソースには何をお使いでしょうか？fence_vmware_restやfence_vmware_soapでしょうか？
 ※もしかすると、ACT/STBの相打ちのような状況が起きているのかも。。とも思いますが・・・
 
 >どのあたりを観点に調査すればよろしいでしょうか。
 >また、考えられる原因などありましたら アドバイスいただけますと幸いです。
 
 まずは、ログからお互いのフェンシングが実行される原因となった辺りを確認することから始めるのが良いと思います。
 
 クラスタ設定やログを開示できる範囲で、お見せ頂ければ、もう少しわかるかも知れません。
 
 以上、宜しくお願いいたします。
 
 ----- Original Message -----
 
 From: "harada" <ljpghn1101@gmail.com>
 To: "linux-ha-japan@lists.osdn.me" <linux-ha-japan@lists.osdn.me>
 Date: 2021/12/20 月 12:47
 Subject: [Linux-ha-jp] Samba環境のnmb停止タイムアウトについて
 
 
 原田と申します。
 
 下記の環境で、切り替え試験をするために、1号機をシャットダウンしたところ、nmbが停止しない状態が続き、フェンス処理が走りました。
 その後、2号機にフェイルオーバーしたかと思ったら、再度2号機でフェンスが走り、1号機へとフェイルオーバのような事象が繰り返され、何とかメンテナンスモードを実行することで、いったりきたりするリソースを止めることができました。
  
 ■環境
 ・VMware ESXi 上の仮想サーバ
 ・サーバ台数は2台(Act - Syb 構成)
 ・ 共有ディスク(SCSI)
 ・OS：CentOS7
 ・Pacemakerバージョン想定：1.1.23
 
 リソース(起動順番)
 ・Filesystem 
 ・nfs-server
 ・exportfs
 ・VIP　7個
 ・Samba
 ・nmb
 ・Mail
 
 何度か検証環境でテストするうちに、sambaとnmbの順番を変えることで、nmbの停止タイムアウトが発生しなくなることは分かったのですが、
 nmbのstop のタイムアウトが発生して、その後、フェンスが走った場合は、1号機を強制停止することになるので、2号機にフェイルオーバーして終わりなはずなのに、今回、なぜいったり来たりしてしまったのかが原因が分からない状態です。
  
 どのあたりを観点に調査すればよろしいでしょうか。
 また、考えられる原因などありましたら アドバイスいただけますと幸いです。
 
 宜しくお願いいたします。
 
 _______________________________________________
 Linux-ha-japan mailing list
 Linux-ha-japan@lists.osdn.me
 https://lists.osdn.me/mailman/listinfo/linux-ha-japan
 
 
_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan@lists.osdn.me
https://lists.osdn.me/mailman/listinfo/linux-ha-japan


[prev in list] [next in list] [prev in thread] [next in thread]