Oracle数据库数据恢复、性能优化

找回密码
注册
搜索
热搜: 活动 交友 discuz
发新帖

5

积分

1

好友

16

主题
1#
发表于 2013-1-28 15:38:12 | 查看: 5890| 回复: 16
环境描述:

双节点rac,10.2.0.5版本,ASM管理,HPDL580服务器,suse11操作系统
节点名称(db3,db4),心跳用直连方式。

问题描述:

上午10点半左右db3未知原因假死,导致db4自动重启,但db4重启后一直未能接管集群,此时手动重启db3,在等待了漫长的40分钟后db3起来后,集群随之正常。


求助:

请帮助分析原因:
1、db3为何假死?
2、db4重启后为何不接管集群?即使在db3重启(即等同于关机)的时候也未能接管?
3、oracle rac用什么方式或文件来判断节点是否应该接管其他节点的集群?

由于日志较多,先提供告警日志、crsd日志、cssd日志、操作系统日志,如有其它日志需要,请回复说明,谢谢!


db3:

系统日志: messages_db3.txt (1.59 MB, 下载次数: 1006)

告警日志: alertdb3.txt (22.54 KB, 下载次数: 1223)

crsd日志: crsd.txt (296.55 KB, 下载次数: 1283)

cssd日志: ocssd.rar (1.25 MB, 下载次数: 1184)


db4:

系统日志: messages_db4.txt (721.16 KB, 下载次数: 946)

告警日志: alertdb4.txt (23.75 KB, 下载次数: 1258)

crsd日志: crsd_db4.txt (799.8 KB, 下载次数: 1246)

cssd日志: ocssd_db4.rar (1.05 MB, 下载次数: 1304)
2#
发表于 2013-1-28 15:44:30
db3-cssd: ocssd.zip (1.56 MB, 下载次数: 1241)

db4-cssd: ocssd_db4.zip (1.29 MB, 下载次数: 1287)

回复 只看该作者 道具 举报

3#
发表于 2013-1-28 15:48:35
oracle@localhost:~$ egrep "NIC|CSS|CRS|oprocd" messages_db4.txt
Jan 14 10:35:56 DB4 logger: Oracle CSS Family monitor starting.
Jan 14 10:35:56 DB4 kernel: netxen_nic: eth2 NIC Link is up
Jan 14 10:35:56 DB4 kernel: netxen_nic: eth0 NIC Link is up
Jan 14 10:35:56 DB4 kernel: netxen_nic: eth1 NIC Link is up
Jan 14 10:35:56 DB4 logger: Running CRSD with TZ =
Jan 14 10:35:57 DB4 logger: Oracle CSS restart. 0, 1
Jan 14 10:40:18 DB4 logger: Oracle CSS daemon failed to start up. Check CRS logs for diagnostics.
Jan 14 10:40:19 DB4 logger: Oracle CSS family monitor shutting down gracefully.
Jan 14 10:47:51 DB4 kernel: netxen_nic: eth2 NIC Link is down
Jan 14 10:47:53 DB4 kernel: netxen_nic: eth2 NIC Link is up
Jan 14 11:00:07 DB4 kernel: netxen_nic: eth2 NIC Link is down
Jan 14 11:00:09 DB4 kernel: netxen_nic: eth2 NIC Link is up
Jan 14 11:00:14 DB4 kernel: netxen_nic: eth2 NIC Link is down
Jan 14 11:00:16 DB4 kernel: netxen_nic: eth2 NIC Link is up
Jan 14 11:21:30 DB4 kernel: netxen_nic: eth2 NIC Link is down
Jan 14 11:24:51 DB4 oracle: Oracle CRSD  set to stop
Jan 14 11:24:51 DB4 oracle: Oracle CRSD  shutdown completed
Jan 14 11:24:51 DB4 oracle: Oracle CSSD being stopped
Jan 14 11:28:02 DB4 logger: Oracle CSS Family monitor starting.
Jan 14 11:28:03 DB4 logger: Oracle CSS restart. 0, 1
Jan 14 11:28:27 DB4 logger: Running CRSD with TZ =
Jan 14 11:39:34 DB4 kernel: netxen_nic: eth2 NIC Link is up


NIC 启启宕宕的算什么情况?

回复 只看该作者 道具 举报

4#
发表于 2013-1-28 15:52:13
Maclean Liu(刘相兵 发表于 2013-1-28 15:48
oracle@localhost:~$ egrep "NIC|CSS|CRS|oprocd" messages_db4.txt
Jan 14 10:35:56 DB4 logger: Oracle  ...

此时db3正在重启,由于是直连方式

估计是这个原因

回复 只看该作者 道具 举报

5#
发表于 2013-1-28 15:53:16
leonhat 发表于 2013-1-28 15:52
此时db3正在重启,由于是直连方式

估计是这个原因

请理出时间线, 什么时候DB3 hang,什么时候 DB4重启 什么时候重启结束。。。。。。。。。

回复 只看该作者 道具 举报

6#
发表于 2013-1-28 15:57:54
oracle@localhost:~$ grep "1.6.8 starting" messages_db4.txt                  
Jan 14 10:35:51 DB4 syslog-ng[8391]: syslog-ng version 1.6.8 starting


就syslog的启动日志看 仅在 Jan 14 10:35:51 前发生过一次重启


Jan 14 10:28:15 DB4 syslog-ng[8244]: Error connecting to remote host AF_INET(100.10.64.13:514), reattempting in 60 seconds
Jan 14 10:35:51 DB4 syslog-ng[8391]: syslog-ng version 1.6.8 starting

10:28~10:35 之间DB4发生了重启

回复 只看该作者 道具 举报

7#
发表于 2013-1-28 16:00:31
oracle@localhost:~$ egrep "CRS|CSS|oprocd" messages_db4.txt               
Jan 14 10:35:56 DB4 logger: Oracle CSS Family monitor starting.
Jan 14 10:35:56 DB4 logger: Running CRSD with TZ =
Jan 14 10:35:57 DB4 logger: Oracle CSS restart. 0, 1
Jan 14 10:40:18 DB4 logger: Oracle CSS daemon failed to start up. Check CRS logs for diagnostics.
Jan 14 10:40:19 DB4 logger: Oracle CSS family monitor shutting down gracefully.
Jan 14 11:24:51 DB4 oracle: Oracle CRSD  set to stop
Jan 14 11:24:51 DB4 oracle: Oracle CRSD  shutdown completed
Jan 14 11:24:51 DB4 oracle: Oracle CSSD being stopped
Jan 14 11:28:02 DB4 logger: Oracle CSS Family monitor starting.
Jan 14 11:28:03 DB4 logger: Oracle CSS restart. 0, 1
Jan 14 11:28:27 DB4 logger: Running CRSD with TZ =


10:35:51 OS重启完成,10:35:56启动CSS、CRS

10:40:18  Oracle CSS daemon failed to start up. Check CRS logs for diagnostics.
=======================》》》》 失败


Jan 14 11:28:02 DB4 logger: Oracle CSS Family monitor starting.

Jan 14 11:28:27 DB4 logger: Running CRSD with TZ =   成功启动

回复 只看该作者 道具 举报

8#
发表于 2013-1-28 16:09:11
Maclean Liu(刘相兵 发表于 2013-1-28 15:53
请理出时间线, 什么时候DB3 hang,什么时候 DB4重启 什么时候重启结束。。。。。。。。。 ...

db3具体hang住时间不详,从日志看,估计在10点29分,手动重启的db3是在db4重启并起来以后,大概在10点40左右,11点38才起来。

db4看日志是在10点30左右开始重启,10点35分起来的。

回复 只看该作者 道具 举报

9#
发表于 2013-1-28 16:10:42
忘了说了,故障发生时间是2013年1月14日上午10点半到11点40之间。

回复 只看该作者 道具 举报

10#
发表于 2013-1-28 16:11:41
Jan 14 10:29:22 DB3 kernel: printk: 8 messages suppressed.
Jan 14 10:29:22 DB3 kernel: The following is only an harmless informational message.
Jan 14 10:29:22 DB3 kernel: Unless you get a _continuous_flood_ of these messages it means
Jan 14 10:29:22 DB3 kernel: everything is working fine. Allocations from irqs cannot be
Jan 14 10:29:22 DB3 kernel: perfectly reliable and the kernel is designed to handle that.
Jan 14 10:29:22 DB3 kernel: oracle: page allocation failure. order:0, mode:0x20
Jan 14 10:29:22 DB3 kernel:
Jan 14 10:29:22 DB3 kernel: Call Trace: <IRQ> <ffffffff80168162>{__alloc_pages+796}
Jan 14 10:29:22 DB3 kernel: klogd 1.4.1, ---------- state change ----------
Jan 14 10:29:22 DB3 kernel:        <ffffffff801837bc>{kmem_getpages+106} <ffffffff80184bbe>{fallback_alloc+304}
Jan 14 10:29:22 DB3 kernel:        <ffffffff801850c3>{__kmalloc+179} <ffffffff8028f362>{__alloc_skb+93}
Jan 14 10:29:22 DB3 kernel:        <ffffffff881a9266>{:netxen_nic:netxen_alloc_rx_skb+39}
Jan 14 10:29:22 DB3 kernel:        <ffffffff881ab594>{:netxen_nic:netxen_process_rcv_ring+1604}
Jan 14 10:29:22 DB3 kernel:        <ffffffff8010f013>{do_gettimeofday+92} <ffffffff881aa9e9>{:netxen_nic:netxen_process_cmd_ring+46}
Jan 14 10:29:22 DB3 kernel:        <ffffffff881a5eb8>{:netxen_nic:netxen_nic_poll+64} <ffffffff80295144>{net_rx_action+165}
Jan 14 10:29:22 DB3 kernel:        <ffffffff8013a76c>{__do_softirq+85} <ffffffff8010c216>{call_softirq+30}
Jan 14 10:29:22 DB3 kernel:        <ffffffff8010d1a4>{do_softirq+44} <ffffffff8010d56e>{do_IRQ+64}
Jan 14 10:29:22 DB3 kernel:        <ffffffff8010b352>{ret_from_intr+0} <EOI>
Jan 14 10:29:22 DB3 kernel: Mem-info:
Jan 14 11:38:07 DB3 syslog-ng[5967]: syslog-ng version 1.6.8 starting
[    CSSD]2013-01-14 10:29:19.225 [1224808768] >TRACE:   clssnmSendingThread: sending status msg to all nodes
[    CSSD]2013-01-14 10:29:19.225 [1224808768] >TRACE:   clssnmSendingThread: sent 4 status msgs to all nodes
[    CSSD]2013-01-14 11:38:23.091 >USER:    Copyright 2013, Oracle version 10.2.0.5.0
[    CSSD]2013-01-14 11:38:23.091 >USER:    Starting CSS daemon on node db3, number 1, in cluster crs
[  clsdmt]Listening to (ADDRESS=(PROTOCOL=ipc)(KEY=db3DBG_CSSD))
[    CSSD]2013-01-14 11:38:23.190 [1793824160] >TRACE:   clssscmain: RT queue setting is at default value

实际节点3在Jan 14 10:29:22 hang=>crash过,可能的原因是oracle: page allocation failure,到11:38:07  OS恢复

回复 只看该作者 道具 举报

11#
发表于 2013-1-28 16:18:43
在11点20左右,我在db4上操作启动crs成功,但启动asm失败,直到db3完全启动起来,asm才能启动,之后手动启动数据库成功,再查crs状态中只有db4,过了一会儿,再查crs状态,发现db3和db4都在且正常。

回复 只看该作者 道具 举报

12#
发表于 2013-1-28 16:30:50
db4重启后为何不接管集群?为何报的是加入集群失败的错误?
2013-01-14 10:35:57.063: [ CSSCLNT][2561460576]clsssInitNative: connect failed, rc 9

2013-01-14 10:35:57.064: [  CRSRTI][2561460576]0CSS is not ready. Received status 3 from CSS. Waiting for good status ..
这个是什么意思?


回复 只看该作者 道具 举报

13#
发表于 2013-1-28 16:33:30
Timline
Node
What happened
Status
10时29分22秒
DB3
oracle: page allocation ,OS hang
10:29:22~  X时间点hang ; X时间点到11:38:07  os重启完成
10时30分22秒
DB4
clssnmPollingThread:  node db3 (1) at 90% heartbeat fatal, eviction in 3.970 seconds seedhbimpd 1  clssscExit: CSSD aborting from thread clssnmRcfgMgrThread
OS  reboot
10时35分51秒
DB4
DB4  节点重启daemons
CRS不可用
10时35分51秒
DB4
Oracle CSS Family monitor starting
CSS尝试启动,CRS不可用
10时38分07秒
DB3
DB3  节点重启daemons
CRS不可用
10时38分23秒
DB3
Starting  CSS daemon on node db3
CSS尝试启动,CRS不可用
10时40分23秒
DB4
Oracle  CSS daemon failed to start up. Check CRS logs for diagnostics.
DB4  CSS启动失败;DB4启动CSS这段时间 DB3在hang或CRS重启阶段
to be contined………
 

回复 只看该作者 道具 举报

14#
发表于 2013-1-28 16:39:20
css在db4启动失败后就不再尝试启动了吗?
什么原因导致css在db4启动失败呢?

回复 只看该作者 道具 举报

15#
发表于 2013-1-28 17:07:08
正在拜读maclean一年前的文章:

https://forums.oracle.com/forums/thread.jspa?messageID=10127723

回复 只看该作者 道具 举报

16#
发表于 2013-1-28 17:53:05
通过阅读《了解Oracle RAC Brain Split Resolution集群脑裂协议》
查找这次故障的原因,是否是由于:
db3的节点号最小,所以是主节点,db4发现心跳断了,为了防止脑裂,将自己提出集群并重启,但起来后发现主节点仍有问题,voting disk中的状态仍是kill block,所以db4的css启动失败,无法接管。


那么css服务启动失败后会再次尝试启动吗?多长时间尝试一次?

回复 只看该作者 道具 举报

17#
发表于 2013-1-30 13:24:07
以下是根据maclean的时间轴完善的,大概就可以看出问题的原因了:

Timline
Node
What happened
Status
10时29分22秒
DB3
oracle: page allocation ,OS hang
10:29:22~  X时间点hang ; X时间点到11:38:07  os重启完成
10时30分22秒
DB4
clssnmPollingThread:  node db3 (1) at 90% heartbeat fatal, eviction in 3.970 seconds seedhbimpd 1  clssscExit: CSSD aborting from thread clssnmRcfgMgrThread
OS  reboot
10时35分51秒
DB4
DB4  节点重启daemons
CRS不可用
10时35分51秒
DB4
Oracle CSS Family monitor starting
CSS尝试启动,CRS不可用
10时36分09秒
DB4
takeover aborted due to ALIVE node on Disk
放弃接管
10时36分16秒
DB4
takeover aborted due to ALIVE node on Disk
第二次放弃接管
10时36分23秒
DB4
takeover aborted due to ALIVE node on Disk
第三次放弃接管
 
 
 
10时40分15秒
DB4
takeover aborted due to ALIVE node on Disk
第36次放弃接管,最后一次
10时40分15秒
DB4
not possible to join the cluster. Please reboot the node.
放弃加入集群,并要求重启
10时40分15秒
DB4
CSSD aborting from thread clssnmRcfgMgrThread
CSSD放弃来自RcfgMgr的线程不明白
10时40分23秒
DB4
Oracle  CSS daemon failed to start up. Check CRS logs for diagnostics.
DB4  CSS启动失败;DB4启动CSS这段时间 DB3在hang或CRS重启阶段
11时28分05秒
DB4
Starting CSS daemon on node db4, number 2, in cluster crs
CSS尝试启动(我手动启动)
11时31分29秒
DB4
takeover succ
接管成功
11时31分29秒
DB4
node(2) is ALIVE
DB4存活
11时38分07秒
DB3
syslog-ng version 1.6.8 starting
系统已启动
11时38分07秒
DB3
DB3  节点重启daemons
CRS不可用
11时38分23秒
DB3
Starting  CSS daemon on node db3
CSS尝试启动,CRS不可用
11时45分46秒
DB3
Starting CSS daemon on node db3, number 1, in cluster crs
CSS尝试启动,CRS不可用
11时45分50秒
DB3
node(2) UNKNOWN
节点二状态未知
11时45分50秒
DB3
clssgmEstablishMasterNode: MASTER for 2 is node(2) birth(1)
建立节点二为主节点
11时45分50秒
DB3
local node number 1, master node number 2
主节点数2个
11时45分50秒
DB3
SYNC(2) from node(2) completed
NODE 1 (db3) IS ACTIVE MEMBER OF CLUSTER
NODE 2 (db4) IS ACTIVE MEMBER OF CLUSTER
节点一从节点二同步完成,集群成员全活
 
 
 
 

不明白的问题:
1、节点一(DB3)是起来后成为主节点了,还是加入到节点二(DB4)的集群中的?
2、节点二的集群起来后,数据库就能手动起来了吗?

回复 只看该作者 道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-12-26 12:15 , Processed in 0.058003 second(s), 23 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部
TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569