Oracle数据库数据恢复、性能优化

找回密码
注册
搜索
热搜: 活动 交友 discuz
发新帖

8

积分

0

好友

2

主题
1#
发表于 2013-2-19 17:36:12 | 查看: 5874| 回复: 7
OS: Windows 2008 R2 Enterprise
Oracle: RAC, 11.2.0.1.0,两节点(RAC01和RAC02)

故障现象:昨晚23:35,收到EM告警邮件
目标名称=RAC-cluster
目标类型=集群
主机=RAC01
度量=状态更改
度量值=PARTIALLY_INTERMEDIATE
密钥=resource_ora.listener.type_ora.LISTENER.lsnr
时间戳=2013-2-18 23:35:12 CST
严重性=警告
消息=ora.LISTENER.lsnr 具有 个实例处于 INTERMEDIATE 状态


发现监听好像失效,sqlplus / as sysdba也登录不了。部分应用连接DB出错,太晚了没仔细检查,直接重启了服务器,重启后故障解决

今天分析日志,23:33的时候,lsnr坏掉了,agent一直尝试重启但没有成功,resource的状态从ONLINE变成了UNKNOWN,然后oracle实例、asm实例都报连接问题了

因故障发生在深夜,只坏了一个节点,且好像只会影响新连接,已有连接不会有问题,所以影响倒不大。但是类似问题是一年来第3次出现了,发生在同一节点,另一节点没出现过。第一次发生时不清楚,当时没接手;第二次发生时也不在场,听说是由于listener日志文件达到4GB引起的,不过自那之后经常清理此日志,目前只有400MB而已

相关日志: 0218error.zip (5.61 KB, 下载次数: 918)

请maclean帮我分析下可能的原因,谢谢!
2#
发表于 2013-2-19 22:33:28
sqlplus / as sysdba==> 这个是本地连接, 不走监听的, 如果登录不了 那么报什么错?

回复 只看该作者 道具 举报

3#
发表于 2013-2-20 08:03:02
报错TNS-12560: TNS: 协议适配器错误

回复 只看该作者 道具 举报

4#
发表于 2013-2-20 10:00:11
那说明 windows下的 oracle service 都被关闭了, 不仅仅是监听问题了

回复 只看该作者 道具 举报

5#
发表于 2013-2-20 10:26:56
很奇怪的是,当时应用都没有报错,我们有很多每隔几分钟就自动运行的计划任务。按理说,双节点RAC,负载分配不可能如此不均衡吧

从日志来看,只有RAC01本地listener资源UNKNOWN,db资源都是ONLINE的,怎么会是oracle service关闭了呢?

回复 只看该作者 道具 举报

6#
发表于 2013-2-20 16:38:10
的确,我测试过,只有监听down的时候,本地认证是不会有问题的,现在越想越怪了。

如果监听DOWN了,这些应用为什么不去连好的节点呢,日志里一堆TNS-12518?我本地测试环境如果关闭一个监听,应用会自动去连另一个。故障发生时,我特意看了一下v$session,没发现有TAF的session

如果果真oracle service DOWN了,那应该会有一大堆报错啊,但是开发人员说,应用都没有收到Oracle反馈的错误。但我用sqlplus本地登录,却又有TNS-12560

现在没法重新故障,当时处理得太草率了,没留意oracle service和lsnrctl service的状态

回复 只看该作者 道具 举报

7#
发表于 2013-2-20 17:02:22
皮皮少爷 发表于 2013-2-20 16:38
的确,我测试过,只有监听down的时候,本地认证是不会有问题的,现在越想越怪了。

如果监听DOWN了,这些应 ...

日志里应该有吧

回复 只看该作者 道具 举报

8#
发表于 2013-2-20 17:22:57
所以我还是认为只是监听有问题,实例是没有问题的

部分日志如下:
2013-02-18 23:34:09.166: [    AGFW][6420] check for resource: ora.racorcl.db 1 1 completed with status: ONLINE

  1. 2013-02-18 23:34:48.042: [ora.LISTENER_SCAN1.lsnr][8960] [check]
  2. (:CLSN00010:)服务 "racorcl" 包含 2 个实例。

  3. 2013-02-18 23:34:48.042: [ora.LISTENER_SCAN1.lsnr][8960] [check]
  4. (:CLSN00010:)  实例 "racorcl1", 状态 READY, 包含此服务的 1 个处理程序...

  5. 2013-02-18 23:34:48.042: [ora.LISTENER_SCAN1.lsnr][8960] [check]
  6. (:CLSN00010:)  实例 "racorcl2", 状态 READY, 包含此服务的 1 个处理程序...
复制代码
但是监听状态却不对,代理也重启不了监听
  1. 2013-02-18 23:35:08.680: [    AGFW][8676]Created alert : (:CRSAGF00113:) :  Aborting the command: check for resource: ora.LISTENER.lsnr rac01 1
  2. 2013-02-18 23:35:08.680: [ora.LISTENER.lsnr][8676] [check] clsn_agent::abort {
  3. 2013-02-18 23:35:08.696: [ora.LISTENER.lsnr][8676] [check] abort {
  4. 2013-02-18 23:35:08.696: [ora.LISTENER.lsnr][8676] [check] abort command: check
  5. 2013-02-18 23:35:08.696: [ora.LISTENER.lsnr][8676] [check] tryActionLock {
  6. 2013-02-18 23:35:08.727: [ora.LISTENER.lsnr][8584] [check] (:CLSN00009:)Utils:execCmd abort request: killing d:\app\11.2.0\grid\bin\lsnrctl.exe
  7. 2013-02-18 23:35:08.727: [ora.LISTENER.lsnr][8584] [check] Exception type=2 string=CRS-5014: 代理 "d:\app\11.2.0\grid\bin\oraagent.exe" 在启动进程 "d:\app\11.2.0\grid\bin\lsnrctl.exe" 以执行操作 "check" 时超时: 详细资料见 "(:CLSN00009:)" (位于 "d:\app\11.2.0\grid\log\rac01\agent\crsd\oraagent\oraagent.log")

  8. 2013-02-18 23:35:08.805: [ora.LISTENER.lsnr][8584] [check] Exception type=2 string=(:CLSN00009:)Utils:execCmd aborted
  9. 2013-02-18 23:35:08.805: [    AGFW][8584] check for resource: ora.LISTENER.lsnr rac01 1 completed with status: UNKNOWN
复制代码

回复 只看该作者 道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-11-16 06:26 , Processed in 0.060905 second(s), 24 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部
TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569