Oracle数据库数据恢复、性能优化

找回密码
注册
搜索
热搜: 活动 交友 discuz
发新帖

0

积分

1

好友

1

主题
1#
发表于 2014-6-4 09:46:20 | 查看: 3551| 回复: 2
本帖最后由 ora_ted 于 2014-6-4 09:46 编辑

刘大,

我这边有个系统,Oracle Linux 5.7, 10.2.0.5.0,打了CRS Patch:9952245 和Patch  13343471、cpu  16270946.(另外一套系统打了psu 16056270也是有同样的故障)

在2014-06-02 08:22:15 时候,节点1在ora.jmhrdb1.vip.log日志中有个这样的报错 [    RACG][1130706656] [8576][1130706656][ora.jmhrdb1.vip]: timeout: killed the spawned process 。

在2014-06-02 08:45:18 在crsd.log中出现如下报错

2014-06-02 08:45:18.998: [  CRSEVT][1444129088]0CAAMonitorHandler :: 0:Could not join /u01/app/oracle/product/crs/bin/racgwrap(check)
category: 1234, operation: scls_process_join, loc: childcrash, OS error: 0, other: Abnormal termination of the child

2014-06-02 08:45:19.008: [  CRSEVT][1444129088]0CAAMonitorHandler :: 0:Action Script /u01/app/oracle/product/crs/bin/racgwrap(check) timed out for ora.jmhrdb1.vip! (timeout=60)
2014-06-02 08:45:19.009: [  CRSAPP][1444129088]0CheckResource error for ora.jmhrdb1.vip error code = -2

8点45分后面还有一堆错误


在2014-06-02 10:56:25  节点1的evtf.log日志中出现如下错误

2014-06-02 10:56:25.840: [    RACG][3634067168] [18109][3634067168][default]: clsrevtf: Invalid resource attr ora.jmhrdb1.LISTENER_JMHRDB1.lsnr

2014-06-02 10:56:25.859: [    RACG][3634067168] [18109][3634067168][default]: clsrep: event for resource 'ora.jmhrdb1.LISTENER_JMHRDB1.lsnr' not forwarded


附件的log有2个文件:db_check_jmhrdb1_2014060210.txt、db_check_jmhrdb1_2014060211.txt

这里面分别是10点和11点节点1的信息,vmstat 看到cpu的r队列异常,这个非应用导致,6月2号没人使用这个系统。11点的时候,看到节点1监听已经异常,切vip没有漂移到节点2.从crsd.log看到监听异常的准确时间点应该是
2014-06-02 10:27:53.084: [  CRSRES][1444129088]0ora.jmhrdb1.LISTENER_JMHRDB1.lsnr on jmhrdb1 went OFFLINE unexpectedly


在12点左右,接到故障,登陆到节点1,发现大量/bin/sh /u01/app/oracle/product/crs/bin/racgvip check jmhrdb1进程(附件crt.log里面有相关信息),这些进程无法进行kill,后来打算重启crs,hang住没成功,用命令reboot也无法重启机器,后来手动重启的机器。

附件有个messages(OS_log).txt,日志里面没有发现网络异常。


不知道刘大是否遇到过这种案例,是什么导致了vip异常,我看过老盖发表的一篇文档:
http://www.eygle.com/archives/2011/02/grid_control_crs_stat.html

故障有点类似,但是文章提到的bug已经修复,我也检查了racgwrap脚本,确实没有异常。metalink也搜了一堆文档,除了bug 8222311,目前没有其他有价值的。

刘大,有空帮忙看看.........

log.zip

8.02 MB, 下载次数: 668

2#
发表于 2014-6-5 21:44:20
没有人遇到过吗?

回复 只看该作者 道具 举报

3#
发表于 2014-6-12 21:42:32
shixiong,通常r特别高,说明CPU不够用了。请检查下机器配置有多少个CPU,当时的process数两个实例是多少,是否某个进程异常不能fork新的进程

回复 只看该作者 道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-12-21 01:53 , Processed in 0.050173 second(s), 24 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部
TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569