8 积分	0 好友	2 主题

发消息

[Exadata常规管理] 节点频繁重启

1^#

发表于 2012-12-15 11:40:57 | 查看: 5164| 回复: 5

OS：Windows 2008 R2 Enterprise
Oracle: RAC, 11.2.0.1.0，两节点（RAC01和RAC02）
现象：RAC02经常重启（脑裂）
NHB：每节点双千兆网卡绑成一张网卡用作心跳，千兆交换机
DHB：ASM，一个VD，HP存储，RAID 6

想问为何RAC02节点经常因脑裂问题而重启，为何重启的总是它？

日志见附件，最近一次故障是12月15日上午8点17分左右

谢谢！

RAC.rar (91.84 KB, 下载次数: 1678)

分享0

收藏0 回复只看该作者道具举报

Liu Maclean(刘相兵

2^#

发表于 2012-12-15 13:02:03

想问为何RAC02节点经常因脑裂问题而重启，为何重启的总是它？=>
Oracle RAC Brain Split Resolution http://www.askmaclean.com/archiv ... lit-resolution.html

回复只看该作者道具举报

Liu Maclean(刘相兵

3^#

发表于 2012-12-15 13:06:15

2012-12-15 08:17:48.132: [ CSSD][16492]clssgmSuspendAllGrocks: done
2012-12-15 08:17:48.132: [ CSSD][16492]clssgmUpdateEventValue: CmInfo State val 2, changes 51
2012-12-15 08:17:48.132: [ CSSD][16492]clssgmUpdateEventValue: ConnectedNodes val 217028126, changes 16
2012-12-15 08:17:48.132: [ CSSD][16492]clssgmCleanupNodeContexts(): cleaning up nodes, rcfg(217028126)
2012-12-15 08:17:48.132: [ CSSD][16492]clssgmCleanupNodeContexts(): successful cleanup of nodes rcfg(217028126)
2012-12-15 08:17:48.132: [ CSSD][16492]clssgmStartNMMon: completed node cleanup
2012-12-15 08:17:48.132: [ CSSD][11056]clssgmUpdateEventValue: HoldRequest val 1, changes 11
2012-12-15 08:17:48.163: [ CSSD][15164]clssnmvDiskKillCheck: not evicted, file \\.\ORCLDISKDATA0 flags 0x00000000, kill block unique 0, my unique 1353784549
2012-12-15 08:17:48.241: [ CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
2012-12-15 08:17:48.350: [ CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
2012-12-15 08:17:48.412: [ CSSD][7580]clssnmvDHBValidateNCopy: node 2, rac02, has a disk HB, but no network HB, DHB has rcfg 217028127, wrtcnt, 33305375, LATS 3931812840, lastSeqNo 33305375, uniqueness 1354529460, timestamp 1355530667/1009947680
2012-12-15 08:17:48.459: [ CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
2012-12-15 08:17:48.568: [ CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
2012-12-15 08:17:48.678: [ CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
2012-12-15 08:17:48.709: [ CSSD][10048]clssscSelect: cookie accept request 000000000537EE00
2012-12-15 08:17:48.709: [ CSSD][10048]clssgmAllocProc: (0000000007B4FC60) allocated
2012-12-15 08:17:48.709: [ CSSD][10048]clssgmClientConnectMsg: properties of cmProc 0000000007B4FC60 - 1,2,3,4
2012-12-15 08:17:48.709: [ CSSD][10048]clssgmClientConnectMsg: Connect from con(0000000003285C4B) proc(0000000007B4FC60) pid(12372) version 11:2:1:4, properties: 1,2,3,4
2012-12-15 08:17:48.709: [ CSSD][10048]clssgmClientConnectMsg: msg flags 0x0000

复制代码

就日志看心跳网络经常有中断，具体导致network heartbeat的原因可能有很多包括物理网络中断、主机负载高等

回复只看该作者道具举报

皮皮少爷

4^#

发表于 2012-12-15 13:54:47

多谢！

主机负载：今天是周六，而且才早上8点多，业务量应该是很少的，肯定比工作日少得多。发现故障后我看了一下，一共有80几个session，包括active和inactive的，有几个是failover的，平常一般150session左右。

心跳网中断很早之前就考虑过，但我们的每个节点的心跳网络都是由两根网线组成的，按理说，同时出现物理故障的几率很小，但最近半个月，节点重启就出现过两次。

我曾经在测试环境试过，两节点，无论禁用哪个节点的心跳网卡，使NHB失效，重启的都是节点2。我只能猜测这跟master node有关。但有个疑问，从两个节点的log来看，同样是misscount，节点1的时间点要比节点2快几秒。

请问maclean，从Log能分析出，是哪个节点的物理网络中断导致的吗？

另外，两节点，各4网卡的场景，请问如何构建稳定可靠的网络心跳架构？

回复只看该作者道具举报

皮皮少爷

5^#

发表于 2012-12-15 14:09:12

仔细地看了你的文章，原来不是叫master node，应该称呼为node number，这就可以解释为何总是节点2被驱逐

回复只看该作者道具举报

皮皮少爷

6^#

发表于 2013-2-19 17:11:51

上面的问题已经确认了，是由HP服务器捆绑网卡引起的，解绑后2个月了，没有再出现类似故障

已有 1 人评分	威望	理由
Maclean Liu(刘相兵	+ 8	结贴有奖

总评分: 威望 + 8 查看全部评分

回复只看该作者道具举报

返回列表

		自动登录	找回密码
密码			注册