Oracle数据库数据恢复、性能优化»论坛 › Oracle › Oracle数据库管理 › hp-unix 10g rac其中节点2自动重启

207 积分	1 好友	4 主题

发消息

[Exadata常规管理] hp-unix 10g rac其中节点2自动重启

1^#

发表于 2012-12-21 11:40:47 | 查看: 6039| 回复: 15

本帖最后由 gtlions 于 2012-12-21 11:51 编辑

环境：
HP UNIX 11.23
Oracle RAC 10G 10.2.0.4
现象为两个节点的其中一个节点2，在启动crsctl start crs之后自动重启操作系统。
附件为日志信息。
请哪位有空帮忙诊断一下，谢谢。

2.61 MB, 下载次数: 843

日志

爱老婆，爱FM，爱音乐；挨踢，爱折腾，爱Oracle

收藏0 回复只看该作者道具举报

2^#

发表于 2012-12-21 11:46:47

现象描述附加信息：在系统crash之后，如果不启动crs，os正常，但是只要见卷组激活然后手工启动crs（crs已经被disable）os就会重启，在没有disable crs之前如果卷组一激活也是同样的现象，因为激活卷组了crs进程就自动启动各项资源了。
卷组是手工激活的，没有设置自动。

回复只看该作者道具举报

3^#

发表于 2012-12-21 12:19:02

把操作系统日志也放出来

回复只看该作者道具举报

4^#

发表于 2012-12-21 12:30:18

查看:
心跳
时间
再装上一个
oswatch

回复只看该作者道具举报

5^#

发表于 2012-12-21 12:51:37

两边的时间相差5秒（节点1快）；
os日志已打包

81.04 KB, 下载次数: 2778

回复只看该作者道具举报

Liu Maclean(刘相兵

6^#

发表于 2012-12-21 16:16:30

你没写问题发生的时间点我假设是我日志中看到的点

[ CSSD]2012-12-21 09:29:55.183 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 50 2.000000e+00artbeat fatal, eviction in 14.109 seconds
[ CSSD]2012-12-21 09:29:55.183 [18] >TRACE: clssnmPollingThread: node rbtdb2 (2) is impending reconfig, flag 1037, misstime 15891
[ CSSD]2012-12-21 09:29:55.183 [18] >TRACE: clssnmPollingThread: diskTimeout set to (27000)ms impending reconfig status(1)
[ CSSD]2012-12-21 09:30:02.180 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 75 2.000000e+00artbeat fatal, eviction in 7.111 seconds
[ CSSD]2012-12-21 09:30:03.180 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 75 2.000000e+00artbeat fatal, eviction in 6.111 seconds
[ CSSD]2012-12-21 09:30:07.183 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 90 2.000000e+00artbeat fatal, eviction in 2.109 seconds
[ CSSD]2012-12-21 09:30:08.181 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 90 2.000000e+00artbeat fatal, eviction in 1.110 seconds
[ CSSD]2012-12-21 09:30:09.183 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 90 2.000000e+00artbeat fatal, eviction in 0.109 seconds
[ CSSD]2012-12-21 09:30:09.300 [18] >TRACE: clssnmPollingThread: Eviction started for node rbtdb2 (2), flags 0x040d, state 3, wt4c 0
[ CSSD]2012-12-21 09:30:09.300 [20] >TRACE: clssnmDoSyncUpdate: Initiating sync 15
[ CSSD]2012-12-21 09:30:09.300 [20] >TRACE: clssnmDoSyncUpdate: diskTimeout set to (27000)ms
[ CSSD]2012-12-21 09:30:09.300 [20] >TRACE: clssnmSetupAckWait: Ack message type (11)
[ CSSD]2012-12-21 09:30:09.300 [20] >TRACE: clssnmSetupAckWait: node(1) is ALIVE
[ CSSD]2012-12-21 09:30:09.300 [20] >TRACE: clssnmSendSync: syncSeqNo(15)
[ CSSD]2012-12-21 09:30:09.300 [20] >TRACE: clssnmWaitForAcks: Ack message type(11), ackCount(1)
[ CSSD]2012-12-21 09:30:09.300 [13] >TRACE: clssnmHandleSync: diskTimeout set to (27000)ms
[ CSSD]2012-12-21 09:30:09.301 [13] >TRACE: clssnmHandleSync: Acknowledging sync: src[1] srcName[rbtdb1] seq[25] sync[15]
[ CSSD]2012-12-21 09:30:09.301 [1] >USER: NMEVENT_SUSPEND [00][00][00][06]
[ CSSD]2012-12-21 09:30:09.301 [20] >TRACE: clssnmWaitForAcks: done, msg type(11)
[ CSSD]2012-12-21 09:30:09.301 [20] >TRACE: clssnmDoSyncUpdate: Terminating node 2, rbtdb2, misstime(30009) state(5)
[ CSSD]2012-12-21 09:30:09.301 [20] >TRACE: clssnmSetupAckWait: Ack message type (13)
[ CSSD]2012-12-21 09:30:09.301 [20] >TRACE: clssnmSetupAckWait: node(1) is ACTIVE
[ CSSD]2012-12-21 09:30:09.301 [20] >TRACE: clssnmWaitForAcks: Ack message type(13), ackCount(1)
[ CSSD]2012-12-21 09:30:09.301 [13] >TRACE: clssnmSendVoteInfo: node(1) syncSeqNo(15)
[ CSSD]2012-12-21 09:30:09.301 [20] >TRACE: clssnmWaitForAcks: done, msg type(13)
[ CSSD]2012-12-21 09:30:09.301 [20] >TRACE: clssnmCheckDskInfo: Checking disk info...
[ CSSD]2012-12-21 09:30:09.302 [20] >TRACE: clssnmEvict: Start
[ CSSD]2012-12-21 09:30:09.302 [20] >TRACE: clssnmEvict: Evicting node 2, rbtdb2, birth 14, death 15, impendingrcfg 1, stateflags 0x40d
[ CSSD]2012-12-21 09:30:09.302 [20] >TRACE: clssnmSendShutdown: req to node 2, kill time 314812272
[ CSSD]2012-12-21 09:30:09.302 [20] >TRACE: clssnmDiscHelper: rbtdb2, node(2) connection failed, con (6000000000252350), probe(0000000000000000)
[ CSSD]2012-12-21 09:30:09.302 [20] >TRACE: clssnmWaitOnEvictions: Start
[ CSSD]2012-12-21 09:30:09.303 [20] >TRACE: clssnmWaitOnEvictions: node 2, rbtdb2, undead 0
[ CSSD]2012-12-21 09:30:09.303 [20] >TRACE: clssnmSetupAckWait: Ack message type (15)
[ CSSD]2012-12-21 09:30:09.303 [20] >TRACE: clssnmSetupAckWait: node(1) is ACTIVE
[ CSSD]2012-12-21 09:30:09.303 [20] >TRACE: clssnmSendUpdate: syncSeqNo(15)
[ CSSD]2012-12-21 09:30:09.303 [20] >TRACE: clssnmWaitForAcks: Ack message type(15), ackCount(1)
[ CSSD]2012-12-21 09:30:09.303 [13] >TRACE: clssnmUpdateNodeState: node 0, state (0/0) unique (0/0) prevConuni(0) birth (0/0) (old/new)
[ CSSD]2012-12-21 09:30:09.303 [13] >TRACE: clssnmUpdateNodeState: node 1, state (3/3) unique (1321379311/1321379311) prevConuni(0) birth (8/8) (old/new)
[ CSSD]2012-12-21 09:30:09.303 [13] >TRACE: clssnmUpdateNodeState: node 2, state (5/0) unique (1356052688/1356052688) prevConuni(1356052688) birth (14/14) (old/new)
[ CSSD]2012-12-21 09:30:09.303 [13] >TRACE: clssnmDeactivateNode: node 2 (rbtdb2) left cluster
[ CSSD]2012-12-21 09:30:09.304 [13] >USER: clssnmHandleUpdate: SYNC(15) from node(1) completed
[ CSSD]2012-12-21 09:30:09.304 [13] >USER: clssnmHandleUpdate: NODE 1 (rbtdb1) IS ACTIVE MEMBER OF CLUSTER
[ CSSD]2012-12-21 09:30:09.304 [13] >TRACE: clssnmHandleUpdate: diskTimeout set to (200000)ms
[ CSSD]2012-12-21 09:30:09.304 [20] >TRACE: clssnmWaitForAcks: done, msg type(15)
[ CSSD]2012-12-21 09:30:09.304 [20] >TRACE: clssnmDoSyncUpdate: Sync 15 complete!
[ CSSD]2012-12-21 09:30:09.305 [28] >TRACE: clssgmReconfigThread: started for reconfig (15)
[ CSSD]2012-12-21 09:30:09.305 [28] >USER: NMEVENT_RECONFIG [00][00][00][02]
[ CSSD]2012-12-21 09:30:09.306 [28] >TRACE: clssgmCleanupGrocks: cleaning up grock crs_version type 2
[ CSSD]2012-12-21 09:30:09.306 [28] >TRACE: clssgmCleanupOrphanMembers: cleaning up remote mbr(0) grock(crs_version) birth(14/14)
[ CSSD]2012-12-21 09:30:09.306 [28] >TRACE: clssgmCleanupGrocks: cleaning up grock DB+ASM type 2

复制代码

节点1 09:30:09.300 发起对节点2的驱逐

但是节点2 9:18以后ocssd.log没有日志说明节点2的cssd 未正常工作，需要osw以便进一步分析

[ CSSD]2012-12-21 09:18:12.988 [21] >TRACE: clssgmReconfigThread: completed for reconfig(14), with status(1)
[ CSSD]2012-12-21 09:18:13.102 [17] >TRACE: clssgmCommonAddMember: clsomon joined (2/0x1000000/#CSS_CLSSOMON)
[ CSSD]2012-12-21 10:30:11.629 >USER: Copyright 2012, Oracle version 10.2.0.4.0
[ CSSD]2012-12-21 10:30:11.629 >USER: CSS daemon log for node rbtdb2, number 2, in cluster crs

复制代码

回复只看该作者道具举报

7^#

发表于 2012-12-21 16:18:20

sorry，忘记说明了，时间点是今天早上，（实则是前几天就发生了现象，但是我今天才接触到这份报告）。

回复只看该作者道具举报

8^#

发表于 2012-12-21 16:21:37

中午重新尝试了一些操作，在crash恢复之后，激活相关卷组，手工 crsctl start crs，可以看到除了 ora....inst之外的所有的资源起来了，这个时候当然实例没有起来了，尝试crs_start ora...inst 和 sqlplus 启动数据库均造成系统再次crash。

回复只看该作者道具举报

Liu Maclean(刘相兵

9^#

发表于 2012-12-22 20:19:14

gtlions 发表于 2012-12-21 16:21
中午重新尝试了一些操作，在crash恢复之后，激活相关卷组，手工 crsctl start crs，可以看到除了 ora....in ...

6楼已经给出必要的回复了，请查验

回复只看该作者道具举报

10^#

发表于 2012-12-24 09:15:37

谢谢，准备操作中，另外，ML是不是觉得是由于网络或者IO的问题导致的所以才使用osw监控下系统？

回复只看该作者道具举报

11^#

发表于 2012-12-24 10:12:10

附上平台信息：
HP-UX B.11.23 U ia64
ia64 hp server rx3600
Intel(R) Itanium(TM) 9000 series 1595 MHz 2*2颗=4核心/16G/147G*2

群友给的脚本收集资料为sysinfo.rar

AWR.rar内容为：
node1_18号_9点到10点 --为节点1 18号早晨9点到10点的awr报告
node2_18号_9点到10点 ---为节点2 18号早晨9点到10点的awr报告，由于一直重启，只能生产到这个时刻的报告
node1_24号_8点到9点 ---为节点1 24号_8点到9点的awr报告

ps，最新情况：
今天24号9点40分左右，把节点2起来了，目前为止还未宕机，如果需要，等到11点时候再次收集下10点--11点的两个节点的awr报告。

751.1 KB, 下载次数: 2090

108.54 KB, 下载次数: 2794

回复只看该作者道具举报

Liu Maclean(刘相兵

12^#

发表于 2012-12-24 10:24:21

就这几个AWR看DB LOAD并不高，sysinfo.rar只提供了一些系统日志信息，诊断该类RAC 节点cssd无响应的问题严重依赖与OSW等性能历史，否则皆是空谈和猜测

把oprocd的日志上传看看，一般在/etc/oracle目录下

回复只看该作者道具举报

13^#

发表于 2012-12-24 10:34:40

已经上传oprocd

11.83 KB, 下载次数: 2854

回复只看该作者道具举报

Liu Maclean(刘相兵

14^#

发表于 2012-12-24 11:02:33

2节点的oprocd与cssd.log均没有太多有用信息，仍需要OSW日志作证当时的系统资源可用情况

回复只看该作者道具举报

15^#

发表于 2012-12-24 11:08:30

Liu Maclean(刘相兵发表于 2012-12-24 11:02
2节点的oprocd与cssd.log均没有太多有用信息，仍需要OSW日志作证当时的系统资源可用情况 ...

没有使用OWS，所以更没有历史的OWS信息哦。
不过和群友讨论给出的提示是硬件存在故障，现在只能先往这方面下手，让工程师检查下硬件问题。

回复只看该作者道具举报

16^#

发表于 2012-12-24 14:49:52

最新进展，厂家说I/O背板出现问题，准备更换硬件，谢谢各位帮忙。

回复只看该作者道具举报

|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-11-16 06:54 , Processed in 0.059896 second(s), 23 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部

TEL/電話+86 13764045638

Email service@parnassusdata.com

QQ 47079569