Oracle数据库数据恢复、性能优化

找回密码
注册
搜索
热搜: 活动 交友 discuz
发新帖

207

积分

1

好友

4

主题
1#
发表于 2012-12-21 11:40:47 | 查看: 6039| 回复: 15
本帖最后由 gtlions 于 2012-12-21 11:51 编辑

环境:
HP UNIX 11.23
Oracle RAC 10G 10.2.0.4
现象为两个节点的其中一个节点2,在启动crsctl start crs之后自动重启操作系统。
附件为日志信息。
请哪位有空帮忙诊断一下,谢谢。

hp reboot.rar

2.61 MB, 下载次数: 843

日志

爱老婆,爱FM,爱音乐;挨踢,爱折腾,爱Oracle
2#
发表于 2012-12-21 11:46:47
现象描述附加信息:在系统crash之后,如果不启动crs,os正常,但是只要见卷组激活然后手工启动crs(crs已经被disable)os就会重启,在没有disable crs之前如果卷组一激活也是同样的现象,因为激活卷组了crs进程就自动启动各项资源了。
卷组是手工激活的,没有设置自动。

回复 只看该作者 道具 举报

3#
发表于 2012-12-21 12:19:02
把操作系统日志也放出来

回复 只看该作者 道具 举报

4#
发表于 2012-12-21 12:30:18
查看:
心跳
时间
再装上一个
oswatch

回复 只看该作者 道具 举报

5#
发表于 2012-12-21 12:51:37
两边的时间相差5秒(节点1快);
os日志已打包

syslog.rar

81.04 KB, 下载次数: 2778

回复 只看该作者 道具 举报

6#
发表于 2012-12-21 16:16:30
你没写 问题发生的时间点 我假设是我日志中看到的点
  1. [    CSSD]2012-12-21 09:29:55.183 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 50 2.000000e+00artbeat fatal, eviction in 14.109 seconds
  2. [    CSSD]2012-12-21 09:29:55.183 [18] >TRACE:   clssnmPollingThread: node rbtdb2 (2) is impending reconfig, flag 1037, misstime 15891
  3. [    CSSD]2012-12-21 09:29:55.183 [18] >TRACE:   clssnmPollingThread: diskTimeout set to (27000)ms impending reconfig status(1)
  4. [    CSSD]2012-12-21 09:30:02.180 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 75 2.000000e+00artbeat fatal, eviction in 7.111 seconds
  5. [    CSSD]2012-12-21 09:30:03.180 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 75 2.000000e+00artbeat fatal, eviction in 6.111 seconds
  6. [    CSSD]2012-12-21 09:30:07.183 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 90 2.000000e+00artbeat fatal, eviction in 2.109 seconds
  7. [    CSSD]2012-12-21 09:30:08.181 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 90 2.000000e+00artbeat fatal, eviction in 1.110 seconds
  8. [    CSSD]2012-12-21 09:30:09.183 [18] >WARNING: clssnmPollingThread: node rbtdb2 (2) at 90 2.000000e+00artbeat fatal, eviction in 0.109 seconds
  9. [    CSSD]2012-12-21 09:30:09.300 [18] >TRACE:   clssnmPollingThread: Eviction started for node rbtdb2 (2), flags 0x040d, state 3, wt4c 0
  10. [    CSSD]2012-12-21 09:30:09.300 [20] >TRACE:   clssnmDoSyncUpdate: Initiating sync 15
  11. [    CSSD]2012-12-21 09:30:09.300 [20] >TRACE:   clssnmDoSyncUpdate: diskTimeout set to (27000)ms
  12. [    CSSD]2012-12-21 09:30:09.300 [20] >TRACE:   clssnmSetupAckWait: Ack message type (11)
  13. [    CSSD]2012-12-21 09:30:09.300 [20] >TRACE:   clssnmSetupAckWait: node(1) is ALIVE
  14. [    CSSD]2012-12-21 09:30:09.300 [20] >TRACE:   clssnmSendSync: syncSeqNo(15)
  15. [    CSSD]2012-12-21 09:30:09.300 [20] >TRACE:   clssnmWaitForAcks: Ack message type(11), ackCount(1)
  16. [    CSSD]2012-12-21 09:30:09.300 [13] >TRACE:   clssnmHandleSync: diskTimeout set to (27000)ms
  17. [    CSSD]2012-12-21 09:30:09.301 [13] >TRACE:   clssnmHandleSync: Acknowledging sync: src[1] srcName[rbtdb1] seq[25] sync[15]
  18. [    CSSD]2012-12-21 09:30:09.301 [1] >USER:    NMEVENT_SUSPEND [00][00][00][06]
  19. [    CSSD]2012-12-21 09:30:09.301 [20] >TRACE:   clssnmWaitForAcks: done, msg type(11)
  20. [    CSSD]2012-12-21 09:30:09.301 [20] >TRACE:   clssnmDoSyncUpdate: Terminating node 2, rbtdb2, misstime(30009) state(5)
  21. [    CSSD]2012-12-21 09:30:09.301 [20] >TRACE:   clssnmSetupAckWait: Ack message type (13)
  22. [    CSSD]2012-12-21 09:30:09.301 [20] >TRACE:   clssnmSetupAckWait: node(1) is ACTIVE
  23. [    CSSD]2012-12-21 09:30:09.301 [20] >TRACE:   clssnmWaitForAcks: Ack message type(13), ackCount(1)
  24. [    CSSD]2012-12-21 09:30:09.301 [13] >TRACE:   clssnmSendVoteInfo: node(1) syncSeqNo(15)
  25. [    CSSD]2012-12-21 09:30:09.301 [20] >TRACE:   clssnmWaitForAcks: done, msg type(13)
  26. [    CSSD]2012-12-21 09:30:09.301 [20] >TRACE:   clssnmCheckDskInfo: Checking disk info...
  27. [    CSSD]2012-12-21 09:30:09.302 [20] >TRACE:   clssnmEvict: Start
  28. [    CSSD]2012-12-21 09:30:09.302 [20] >TRACE:   clssnmEvict: Evicting node 2, rbtdb2, birth 14, death 15, impendingrcfg 1, stateflags 0x40d
  29. [    CSSD]2012-12-21 09:30:09.302 [20] >TRACE:   clssnmSendShutdown: req to node 2, kill time 314812272
  30. [    CSSD]2012-12-21 09:30:09.302 [20] >TRACE:   clssnmDiscHelper: rbtdb2, node(2) connection failed, con (6000000000252350), probe(0000000000000000)
  31. [    CSSD]2012-12-21 09:30:09.302 [20] >TRACE:   clssnmWaitOnEvictions: Start
  32. [    CSSD]2012-12-21 09:30:09.303 [20] >TRACE:   clssnmWaitOnEvictions: node 2, rbtdb2, undead 0
  33. [    CSSD]2012-12-21 09:30:09.303 [20] >TRACE:   clssnmSetupAckWait: Ack message type (15)
  34. [    CSSD]2012-12-21 09:30:09.303 [20] >TRACE:   clssnmSetupAckWait: node(1) is ACTIVE
  35. [    CSSD]2012-12-21 09:30:09.303 [20] >TRACE:   clssnmSendUpdate: syncSeqNo(15)
  36. [    CSSD]2012-12-21 09:30:09.303 [20] >TRACE:   clssnmWaitForAcks: Ack message type(15), ackCount(1)
  37. [    CSSD]2012-12-21 09:30:09.303 [13] >TRACE:   clssnmUpdateNodeState: node 0, state (0/0) unique (0/0) prevConuni(0) birth (0/0) (old/new)
  38. [    CSSD]2012-12-21 09:30:09.303 [13] >TRACE:   clssnmUpdateNodeState: node 1, state (3/3) unique (1321379311/1321379311) prevConuni(0) birth (8/8) (old/new)
  39. [    CSSD]2012-12-21 09:30:09.303 [13] >TRACE:   clssnmUpdateNodeState: node 2, state (5/0) unique (1356052688/1356052688) prevConuni(1356052688) birth (14/14) (old/new)
  40. [    CSSD]2012-12-21 09:30:09.303 [13] >TRACE:   clssnmDeactivateNode: node 2 (rbtdb2) left cluster

  41. [    CSSD]2012-12-21 09:30:09.304 [13] >USER:    clssnmHandleUpdate: SYNC(15) from node(1) completed
  42. [    CSSD]2012-12-21 09:30:09.304 [13] >USER:    clssnmHandleUpdate: NODE 1 (rbtdb1) IS ACTIVE MEMBER OF CLUSTER
  43. [    CSSD]2012-12-21 09:30:09.304 [13] >TRACE:   clssnmHandleUpdate: diskTimeout set to (200000)ms
  44. [    CSSD]2012-12-21 09:30:09.304 [20] >TRACE:   clssnmWaitForAcks: done, msg type(15)
  45. [    CSSD]2012-12-21 09:30:09.304 [20] >TRACE:   clssnmDoSyncUpdate: Sync 15 complete!
  46. [    CSSD]2012-12-21 09:30:09.305 [28] >TRACE:   clssgmReconfigThread:  started for reconfig (15)
  47. [    CSSD]2012-12-21 09:30:09.305 [28] >USER:    NMEVENT_RECONFIG [00][00][00][02]
  48. [    CSSD]2012-12-21 09:30:09.306 [28] >TRACE:   clssgmCleanupGrocks: cleaning up grock crs_version type 2
  49. [    CSSD]2012-12-21 09:30:09.306 [28] >TRACE:   clssgmCleanupOrphanMembers: cleaning up remote mbr(0) grock(crs_version) birth(14/14)
  50. [    CSSD]2012-12-21 09:30:09.306 [28] >TRACE:   clssgmCleanupGrocks: cleaning up grock DB+ASM type 2
复制代码
节点1 09:30:09.300 发起对节点2的驱逐

但是节点2 9:18以后ocssd.log没有日志 说明节点2的cssd 未正常工作,需要osw以便进一步分析
  1. [    CSSD]2012-12-21 09:18:12.988 [21] >TRACE:   clssgmReconfigThread:  completed for reconfig(14), with status(1)
  2. [    CSSD]2012-12-21 09:18:13.102 [17] >TRACE:   clssgmCommonAddMember: clsomon joined (2/0x1000000/#CSS_CLSSOMON)
  3. [    CSSD]2012-12-21 10:30:11.629 >USER:    Copyright 2012, Oracle version 10.2.0.4.0
  4. [    CSSD]2012-12-21 10:30:11.629 >USER:    CSS daemon log for node rbtdb2, number 2, in cluster crs
复制代码

回复 只看该作者 道具 举报

7#
发表于 2012-12-21 16:18:20
sorry,忘记说明了,时间点是今天早上,(实则是前几天就发生了现象,但是我今天才接触到这份报告)。

回复 只看该作者 道具 举报

8#
发表于 2012-12-21 16:21:37
中午重新尝试了一些操作,在crash恢复之后,激活相关卷组,手工 crsctl start crs,可以看到除了 ora....inst之外的所有的资源起来了,这个时候当然实例没有起来了,尝试crs_start ora...inst 和 sqlplus 启动数据库均造成系统再次crash。

回复 只看该作者 道具 举报

9#
发表于 2012-12-22 20:19:14
gtlions 发表于 2012-12-21 16:21
中午重新尝试了一些操作,在crash恢复之后,激活相关卷组,手工 crsctl start crs,可以看到除了 ora....in ...

6楼已经给出必要的回复了,请查验

回复 只看该作者 道具 举报

10#
发表于 2012-12-24 09:15:37
谢谢,准备操作中,另外,ML是不是觉得是由于网络或者IO的问题导致的所以才使用osw监控下系统?

回复 只看该作者 道具 举报

11#
发表于 2012-12-24 10:12:10
附上平台信息:
HP-UX  B.11.23 U ia64
ia64 hp server rx3600
Intel(R) Itanium(TM) 9000 series 1595 MHz 2*2颗=4核心/16G/147G*2

群友给的脚本收集资料为sysinfo.rar

AWR.rar内容为:
node1_18号_9点到10点 --为节点1   18号早晨9点到10点的awr报告
node2_18号_9点到10点 ---为节点2   18号早晨9点到10点的awr报告,由于一直重启,只能生产到这个时刻的报告
node1_24号_8点到9点  ---为节点1    24号_8点到9点的awr报告

ps,最新情况:
今天24号9点40分左右,把节点2起来了,目前为止还未宕机,如果需要,等到11点时候再次收集下10点--11点的两个节点的awr报告。

sysinfo.rar

751.1 KB, 下载次数: 2090

AWR.rar

108.54 KB, 下载次数: 2794

回复 只看该作者 道具 举报

12#
发表于 2012-12-24 10:24:21
就这几个AWR看DB LOAD并不高,sysinfo.rar只提供了一些系统日志信息, 诊断该类RAC 节点cssd无响应的问题 严重依赖与OSW等性能历史,否则皆是空谈和猜测

把oprocd的日志上传看看,一般在/etc/oracle目录下

回复 只看该作者 道具 举报

13#
发表于 2012-12-24 10:34:40
已经上传oprocd

oprocd.rar

11.83 KB, 下载次数: 2854

回复 只看该作者 道具 举报

14#
发表于 2012-12-24 11:02:33
2节点的oprocd与cssd.log均没有太多有用信息, 仍需要OSW日志作证当时的系统资源可用情况

回复 只看该作者 道具 举报

15#
发表于 2012-12-24 11:08:30
Liu Maclean(刘相兵 发表于 2012-12-24 11:02
2节点的oprocd与cssd.log均没有太多有用信息, 仍需要OSW日志作证当时的系统资源可用情况 ...

没有使用OWS,所以更没有历史的OWS信息哦。
不过和群友讨论给出的提示是硬件存在故障,现在只能先往这方面下手,让工程师检查下硬件问题。

回复 只看该作者 道具 举报

16#
发表于 2012-12-24 14:49:52
最新进展,厂家说I/O背板出现问题,准备更换硬件,谢谢各位帮忙。

回复 只看该作者 道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-11-16 06:54 , Processed in 0.059896 second(s), 23 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部
TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569