ora_ted 发表于 2014-6-4 09:46:20

监听异常,不知道是否遇到了bug

本帖最后由 ora_ted 于 2014-6-4 09:46 编辑

刘大,

我这边有个系统,Oracle Linux 5.7, 10.2.0.5.0,打了CRS Patch:9952245 和Patch  13343471、cpu  16270946.(另外一套系统打了psu 16056270也是有同样的故障)

在2014-06-02 08:22:15 时候,节点1在ora.jmhrdb1.vip.log日志中有个这样的报错 [    RACG] : timeout: killed the spawned process 。

在2014-06-02 08:45:18 在crsd.log中出现如下报错

2014-06-02 08:45:18.998: [  CRSEVT]0CAAMonitorHandler :: 0:Could not join /u01/app/oracle/product/crs/bin/racgwrap(check)
category: 1234, operation: scls_process_join, loc: childcrash, OS error: 0, other: Abnormal termination of the child

2014-06-02 08:45:19.008: [  CRSEVT]0CAAMonitorHandler :: 0:Action Script /u01/app/oracle/product/crs/bin/racgwrap(check) timed out for ora.jmhrdb1.vip! (timeout=60)
2014-06-02 08:45:19.009: [  CRSAPP]0CheckResource error for ora.jmhrdb1.vip error code = -2

8点45分后面还有一堆错误


在2014-06-02 10:56:25  节点1的evtf.log日志中出现如下错误

2014-06-02 10:56:25.840: [    RACG] : clsrevtf: Invalid resource attr ora.jmhrdb1.LISTENER_JMHRDB1.lsnr

2014-06-02 10:56:25.859: [    RACG] : clsrep: event for resource 'ora.jmhrdb1.LISTENER_JMHRDB1.lsnr' not forwarded


附件的log有2个文件:db_check_jmhrdb1_2014060210.txt、db_check_jmhrdb1_2014060211.txt

这里面分别是10点和11点节点1的信息,vmstat 看到cpu的r队列异常,这个非应用导致,6月2号没人使用这个系统。11点的时候,看到节点1监听已经异常,切vip没有漂移到节点2.从crsd.log看到监听异常的准确时间点应该是
2014-06-02 10:27:53.084: [  CRSRES]0ora.jmhrdb1.LISTENER_JMHRDB1.lsnr on jmhrdb1 went OFFLINE unexpectedly


在12点左右,接到故障,登陆到节点1,发现大量/bin/sh /u01/app/oracle/product/crs/bin/racgvip check jmhrdb1进程(附件crt.log里面有相关信息),这些进程无法进行kill,后来打算重启crs,hang住没成功,用命令reboot也无法重启机器,后来手动重启的机器。

附件有个messages(OS_log).txt,日志里面没有发现网络异常。


不知道刘大是否遇到过这种案例,是什么导致了vip异常,我看过老盖发表的一篇文档:
http://www.eygle.com/archives/2011/02/grid_control_crs_stat.html

故障有点类似,但是文章提到的bug已经修复,我也检查了racgwrap脚本,确实没有异常。metalink也搜了一堆文档,除了bug 8222311,目前没有其他有价值的。

刘大,有空帮忙看看.........

ora_ted 发表于 2014-6-5 21:44:20

没有人遇到过吗?

elvischen 发表于 2014-6-12 21:42:32

shixiong,通常r特别高,说明CPU不够用了。请检查下机器配置有多少个CPU,当时的process数两个实例是多少,是否某个进程异常不能fork新的进程
页: [1]
查看完整版本: 监听异常,不知道是否遇到了bug