- 最后登录
- 2014-11-6
- 在线时间
- 3 小时
- 威望
- 0
- 金钱
- 4
- 注册时间
- 2014-1-14
- 阅读权限
- 10
- 帖子
- 22
- 精华
- 0
- 积分
- 0
- UID
- 1625
|
1#
发表于 2014-6-4 09:46:20
|
查看: 3550 |
回复: 2
本帖最后由 ora_ted 于 2014-6-4 09:46 编辑
刘大,
我这边有个系统,Oracle Linux 5.7, 10.2.0.5.0,打了CRS Patch:9952245 和Patch 13343471、cpu 16270946.(另外一套系统打了psu 16056270也是有同样的故障)
在2014-06-02 08:22:15 时候,节点1在ora.jmhrdb1.vip.log日志中有个这样的报错 [ RACG][1130706656] [8576][1130706656][ora.jmhrdb1.vip]: timeout: killed the spawned process 。
在2014-06-02 08:45:18 在crsd.log中出现如下报错
2014-06-02 08:45:18.998: [ CRSEVT][1444129088]0CAAMonitorHandler :: 0:Could not join /u01/app/oracle/product/crs/bin/racgwrap(check)
category: 1234, operation: scls_process_join, loc: childcrash, OS error: 0, other: Abnormal termination of the child
2014-06-02 08:45:19.008: [ CRSEVT][1444129088]0CAAMonitorHandler :: 0:Action Script /u01/app/oracle/product/crs/bin/racgwrap(check) timed out for ora.jmhrdb1.vip! (timeout=60)
2014-06-02 08:45:19.009: [ CRSAPP][1444129088]0CheckResource error for ora.jmhrdb1.vip error code = -2
8点45分后面还有一堆错误
在2014-06-02 10:56:25 节点1的evtf.log日志中出现如下错误
2014-06-02 10:56:25.840: [ RACG][3634067168] [18109][3634067168][default]: clsrevtf: Invalid resource attr ora.jmhrdb1.LISTENER_JMHRDB1.lsnr
2014-06-02 10:56:25.859: [ RACG][3634067168] [18109][3634067168][default]: clsrep: event for resource 'ora.jmhrdb1.LISTENER_JMHRDB1.lsnr' not forwarded
附件的log有2个文件:db_check_jmhrdb1_2014060210.txt、db_check_jmhrdb1_2014060211.txt
这里面分别是10点和11点节点1的信息,vmstat 看到cpu的r队列异常,这个非应用导致,6月2号没人使用这个系统。11点的时候,看到节点1监听已经异常,切vip没有漂移到节点2.从crsd.log看到监听异常的准确时间点应该是
2014-06-02 10:27:53.084: [ CRSRES][1444129088]0ora.jmhrdb1.LISTENER_JMHRDB1.lsnr on jmhrdb1 went OFFLINE unexpectedly
在12点左右,接到故障,登陆到节点1,发现大量/bin/sh /u01/app/oracle/product/crs/bin/racgvip check jmhrdb1进程(附件crt.log里面有相关信息),这些进程无法进行kill,后来打算重启crs,hang住没成功,用命令reboot也无法重启机器,后来手动重启的机器。
附件有个messages(OS_log).txt,日志里面没有发现网络异常。
不知道刘大是否遇到过这种案例,是什么导致了vip异常,我看过老盖发表的一篇文档:
http://www.eygle.com/archives/2011/02/grid_control_crs_stat.html
故障有点类似,但是文章提到的bug已经修复,我也检查了racgwrap脚本,确实没有异常。metalink也搜了一堆文档,除了bug 8222311,目前没有其他有价值的。
刘大,有空帮忙看看......... |
|