Oracle数据库数据恢复、性能优化

找回密码
注册
搜索
热搜: 活动 交友 discuz
发新帖

8

积分

0

好友

2

主题
1#
发表于 2012-12-15 11:40:57 | 查看: 5164| 回复: 5
OS:Windows 2008 R2 Enterprise
Oracle: RAC, 11.2.0.1.0,两节点(RAC01和RAC02)
现象:RAC02经常重启(脑裂)
NHB:每节点双千兆网卡绑成一张网卡用作心跳,千兆交换机
DHB:ASM,一个VD,HP存储,RAID 6

想问为何RAC02节点经常因脑裂问题而重启,为何重启的总是它?

日志见附件,最近一次故障是12月15日上午8点17分左右

谢谢!

RAC.rar (91.84 KB, 下载次数: 1678)
2#
发表于 2012-12-15 13:02:03
想问为何RAC02节点经常因脑裂问题而重启,为何重启的总是它?=>
Oracle RAC Brain Split Resolution http://www.askmaclean.com/archiv ... lit-resolution.html

回复 只看该作者 道具 举报

3#
发表于 2012-12-15 13:06:15
  1. 2012-12-15 08:17:48.132: [    CSSD][16492]clssgmSuspendAllGrocks: done
  2. 2012-12-15 08:17:48.132: [    CSSD][16492]clssgmUpdateEventValue: CmInfo State  val 2, changes 51
  3. 2012-12-15 08:17:48.132: [    CSSD][16492]clssgmUpdateEventValue: ConnectedNodes  val 217028126, changes 16
  4. 2012-12-15 08:17:48.132: [    CSSD][16492]clssgmCleanupNodeContexts():  cleaning up nodes, rcfg(217028126)
  5. 2012-12-15 08:17:48.132: [    CSSD][16492]clssgmCleanupNodeContexts():  successful cleanup of nodes rcfg(217028126)
  6. 2012-12-15 08:17:48.132: [    CSSD][16492]clssgmStartNMMon:  completed node cleanup
  7. 2012-12-15 08:17:48.132: [    CSSD][11056]clssgmUpdateEventValue: HoldRequest  val 1, changes 11
  8. 2012-12-15 08:17:48.163: [    CSSD][15164]clssnmvDiskKillCheck: not evicted, file \\.\ORCLDISKDATA0 flags 0x00000000, kill block unique 0, my unique 1353784549
  9. 2012-12-15 08:17:48.241: [    CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
  10. 2012-12-15 08:17:48.350: [    CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
  11. 2012-12-15 08:17:48.412: [    CSSD][7580]clssnmvDHBValidateNCopy: node 2, rac02, has a disk HB, but no network HB, DHB has rcfg 217028127, wrtcnt, 33305375, LATS 3931812840, lastSeqNo 33305375, uniqueness 1354529460, timestamp 1355530667/1009947680
  12. 2012-12-15 08:17:48.459: [    CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
  13. 2012-12-15 08:17:48.568: [    CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
  14. 2012-12-15 08:17:48.678: [    CSSD][20872]clssnmWaitOnEvictions: node 2, undead 1, EXADATA fence handle 0 kill reqest id 0, have read a DHB from this node
  15. 2012-12-15 08:17:48.709: [    CSSD][10048]clssscSelect: cookie accept request 000000000537EE00
  16. 2012-12-15 08:17:48.709: [    CSSD][10048]clssgmAllocProc: (0000000007B4FC60) allocated
  17. 2012-12-15 08:17:48.709: [    CSSD][10048]clssgmClientConnectMsg: properties of cmProc 0000000007B4FC60 - 1,2,3,4
  18. 2012-12-15 08:17:48.709: [    CSSD][10048]clssgmClientConnectMsg: Connect from con(0000000003285C4B) proc(0000000007B4FC60) pid(12372) version 11:2:1:4, properties: 1,2,3,4
  19. 2012-12-15 08:17:48.709: [    CSSD][10048]clssgmClientConnectMsg: msg flags 0x0000
复制代码
就日志看 心跳网络经常有中断,具体导致network heartbeat的原因可能有很多 包括物理网络中断、主机负载高等

回复 只看该作者 道具 举报

4#
发表于 2012-12-15 13:54:47
多谢!

主机负载:今天是周六,而且才早上8点多,业务量应该是很少的,肯定比工作日少得多。发现故障后我看了一下,一共有80几个session,包括active和inactive的,有几个是failover的,平常一般150session左右。

心跳网中断很早之前就考虑过,但我们的每个节点的心跳网络都是由两根网线组成的,按理说,同时出现物理故障的几率很小,但最近半个月,节点重启就出现过两次。

我曾经在测试环境试过,两节点,无论禁用哪个节点的心跳网卡,使NHB失效,重启的都是节点2。我只能猜测这跟master node有关。但有个疑问,从两个节点的log来看,同样是misscount,节点1的时间点要比节点2快几秒。

请问maclean,从Log能分析出,是哪个节点的物理网络中断导致的吗?

另外,两节点,各4网卡的场景,请问如何构建稳定可靠的网络心跳架构?

回复 只看该作者 道具 举报

5#
发表于 2012-12-15 14:09:12
仔细地看了你的文章,原来不是叫master node,应该称呼为node number,这就可以解释为何总是节点2被驱逐

回复 只看该作者 道具 举报

6#
发表于 2013-2-19 17:11:51
上面的问题已经确认了,是由HP服务器捆绑网卡引起的,解绑后2个月了,没有再出现类似故障
已有 1 人评分威望 理由
Maclean Liu(刘相兵 + 8 结贴有奖

总评分: 威望 + 8   查看全部评分

回复 只看该作者 道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-11-16 08:30 , Processed in 0.051838 second(s), 24 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部
TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569