Oracle数据库数据恢复、性能优化

找回密码
注册
搜索
热搜: 活动 交友 discuz
发新帖

8

积分

0

好友

7

主题
1#
发表于 2013-9-23 10:20:04 | 查看: 6143| 回复: 17
系统环境
windows 2003 64位,11.2.0.3版本的oracle

9月18日晚上宕机了,昨天客户找到我要求进行处理,目前我认为是监听错误导致的问题,监听日志中TNS-12531: TNS:cannot allocate memory错误,我根据此错误,把windows的sharesection的问题解决了一下,按照文档修改了值,1024,204800,1024,原来默认是1024,204800,768。感觉还有其他问题,但是查不出来了,请各位帮忙看看。系统中有几个错误trace基本都没产生,这点也是让我很疑惑的事。

而且看了日志,对于
2013-09-19 02:23:38.578: [ CRSCOMM][3104] Ipc: Client disconnected.
2013-09-19 02:23:38.578: [ CRSCOMM][3104][FFAIL] IpcL: Listener got clsc error 11 for memNum. 77
2013-09-19 02:23:38.578: [ CRSCOMM][3104] IpcL: connection to member 77 has been removed
2013-09-19 02:23:38.578: [CLSFRAME][3104] Removing IPC Member:{Relative|Node:0|Process:77|Type:3}
2013-09-19 02:23:38.578: [CLSFRAME][3104] Disconnected from AGENT process: {Relative|Node:0|Process:77|Type:3}
2013-09-19 02:23:38.578: [   CRSPE][3128] {1:22525:7495} Disconnected from server:
2013-09-19 02:23:38.578: [    AGFW][3116] {1:22525:7497} Agfw Proxy Server received process disconnected notification, count=1
2013-09-19 02:23:38.578: [    AGFW][3116] {1:22525:7497} D:\app\11.2.0\grid\bin\orarootagent.exe_nt authority\system disconnected.
2013-09-19 02:23:38.578: [    AGFW][3116] {1:22525:7497} Agent D:\app\11.2.0\grid\bin\orarootagent.exe_nt authority\system[3320] stopped!
2013-09-19 02:23:38.578: [ CRSCOMM][3116] {1:22525:7497} IpcL: removeConnection: Member 77 does not exist.
2013-09-19 02:23:38.578: [    AGFW][3116] {1:22525:7497} Restarting the agent D:\app\11.2.0\grid\bin\orarootagent.exe_nt authority\system
2013-09-19 02:23:38.578: [    AGFW][3116] {1:22525:7497} Starting the agent: D:\app\11.2.0\grid\bin\orarootagent.exe with user id: nt authority\system and incarnation:21
2013-09-19 02:23:38.578: [    AGFW][3116] {1:22525:7497} Starting the HB [Interval =  30000, misscount = 6kill allowed=1] for agent: D:\app\11.2.0\grid\bin\orarootagent.exe_nt authority\system
2013-09-19 02:23:38.687: [CLSFRAME][3104] New IPC Member:{Relative|Node:0|Process:78|Type:3}:AGENT
2013-09-19 02:23:38.687: [CLSFRAME][3104] New process connected to us ID:{Relative|Node:0|Process:78|Type:3} Info:AGENT
对于这部分理解的不大明白,没看懂这些到底是表明哪方面错误。请刘大指点一下。

错误日志.rar

1.76 MB, 下载次数: 1433

2#
发表于 2013-9-23 11:11:02

1、宕机指什么 ?  节点重启? 实例重启?
2、 是哪个节点 ?

回复 只看该作者 道具 举报

3#
发表于 2013-9-23 11:15:08
找一下 当时的LMHB 和 DBRM进程的TRACE

回复 只看该作者 道具 举报

4#
发表于 2013-9-23 11:16:04
第一个节点,asm1,宕机是指外部链接都连接不上了,应用全部HANG死,无法运行。
只能重启服务器。

回复 只看该作者 道具 举报

5#
发表于 2013-9-23 11:17:00
还需要当时附近时段的AWR

回复 只看该作者 道具 举报

6#
发表于 2013-9-23 11:26:33
刘大,日志已经上传

lmhb.rar

151.91 KB, 下载次数: 1867

回复 只看该作者 道具 举报

7#
发表于 2013-9-23 11:27:35
另外的dbrm就是19日凌晨的

mcsdb1_dbrm_1128.rar

33.09 KB, 下载次数: 1775

回复 只看该作者 道具 举报

8#
发表于 2013-9-23 11:28:54
AWR报告,需要等一会,医院内部,发不出来,我先联系一下,拷贝一份出来,这些日志是昨天穿出来的

回复 只看该作者 道具 举报

9#
发表于 2013-9-23 11:50:20
你看一下ASM的trace目录下的lmhb和dbrm的trace

回复 只看该作者 道具 举报

10#
发表于 2013-9-23 12:22:34
第一个节点没有dbrm的trace,第二个节点的lmhb只有下面几句话
*** 2013-09-18 19:04:34.359
kjgcr_rcfg: inc 21, memcnt 3, bitmap: 1 2 3   (my memmo 2, my instno 2)

*** 2013-09-19 03:22:09.546
kjgcr_rcfg: inc 22, memcnt 2, bitmap: 1 2   (my memmo 2, my instno 2)

*** 2013-09-19 03:30:09.562
kjgcr_rcfg: inc 23, memcnt 1, bitmap: 2   (my memmo 2, my instno 2)

*** 2013-09-19 03:34:59.562
kjgcr_rcfg: inc 24, memcnt 2, bitmap: 0 2   (my memmo 2, my instno 2)
kjgcr_rcfg: Published my lock info. lk holder: -1

*** 2013-09-19 03:35:54.562
kjgcr_rcfg: inc 25, memcnt 3, bitmap: 0 1 2   (my memmo 2, my instno 2)
kjgcr_rcfg: Published my lock info. lk holder: -1

*** 2013-09-19 07:49:24.687
kjgcr_rcfg: inc 26, memcnt 4, bitmap: 0 1 2 3   (my memmo 2, my instno 2)
kjgcr_rcfg: Published my lock info. lk holder: -1

asm lmhb.rar

7.97 KB, 下载次数: 1776

回复 只看该作者 道具 举报

11#
发表于 2013-9-23 14:00:49

*** 2013-09-15 01:42:18.671
kjgcr_SlaveReqBegin: message queued to slave
kjgcr_Main: KJGCR_ACTION - id 3
kjgrc_ReportTopCPU: Called but no info found.

*** 2013-09-15 01:42:23.671
kjgcr_Main: Reset called for action high cpu, identify users, count 0

*** 2013-09-15 01:42:23.671
kjgcr_Main: Reset called for action high cpu, kill users, count 0

*** 2013-09-15 01:42:23.671
kjgcr_Main: Reset called for action high cpu, activate RM plan, count 0

*** 2013-09-15 01:42:23.671
kjgcr_Main: Reset called for action high cpu, set BG into RT, count 0

*** 2013-09-18 19:04:35.593
kjgcr_rcfg: inc 21, memcnt 3, bitmap: 1 2 3   (my memmo 1, my instno 1)

*** 2013-09-19 03:22:10.593
kjgcr_rcfg: inc 22, memcnt 2, bitmap: 1 2   (my memmo 1, my instno 1)



怀疑这个时段有high cpu

回复 只看该作者 道具 举报

12#
发表于 2013-9-23 14:44:30
两个节点4点到5点,还有5点到6点的AWR报告,6点到7点的没生成报告

AWR报告.rar

200.28 KB, 下载次数: 1742

回复 只看该作者 道具 举报

13#
发表于 2013-9-23 14:49:39
Liu Maclean(刘相兵 发表于 2013-9-23 14:00
*** 2013-09-15 01:42:18.671
kjgcr_SlaveReqBegin: message queued to slave
kjgcr_Main: KJGCR_ACTION - ...

刘大,但是那时候还没事,应用彻底连不上是18号晚上6点多,应该是6点半左右吧,应用就彻底HANG死了

回复 只看该作者 道具 举报

14#
发表于 2013-9-23 15:18:40
现场描述的人不准确,刚去了一下,那些trace确实没有,但是有18点到19点的AWR,19点到凌晨3点多的AWR都没有了。

awrrpt_1_1340_1341.html

600.78 KB, 下载次数: 471

回复 只看该作者 道具 举报

15#
发表于 2013-9-23 15:27:34
Liu Maclean(刘相兵 发表于 2013-9-23 14:00
*** 2013-09-15 01:42:18.671
kjgcr_SlaveReqBegin: message queued to slave
kjgcr_Main: KJGCR_ACTION - ...

看第一个节点的,确实有高CPU现象。
*** 2013-09-18 18:00:54.781
kjgcr_SlaveReqBegin: message queued to slave
kjgcr_Main: KJGCR_ACTION - id 3
CPU is high.  Top oracle users listed below:
     Session           Serial         CPU
     643               45775             0
     154               7401             0
       1                 1             0
       2                 3             0
       3                 3             0

*** 2013-09-18 18:00:59.781
kjgcr_Main: Reset called for action high cpu, identify users, count 0

回复 只看该作者 道具 举报

16#
发表于 2013-9-23 15:50:37
Elapsed:                  60.04 (mins)                  
DB Time:                  0.50 (mins)                  

这个AWR快照没什么意义

回复 只看该作者 道具 举报

17#
发表于 2013-9-23 17:10:30
Liu Maclean(刘相兵 发表于 2013-9-23 15:50
Elapsed:                  60.04 (mins)                  
DB Time:                  0.50 (mins)                  

是啊,所以看不出来东西,像我第一次写的那样,查了下MOS,但是没有其他相关的报错,也不算是BUG,其他的trace还少东西,可用的东西太少了。
操作系统上也没什么可看的,只有一个红色报警错误,是打印机驱动有问题,其他的错误就没有了,我只能现在把监听中的错误修正,看是否还发生错误

回复 只看该作者 道具 举报

18#
发表于 2013-9-23 17:11:35
Liu Maclean(刘相兵 发表于 2013-9-23 15:50
Elapsed:                  60.04 (mins)                  
DB Time:                  0.50 (mins)                  

上面还有4点到5点,6点到7点的AWR报告,刘大,不过好像也没多大意义

回复 只看该作者 道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-6-2 09:11 , Processed in 0.081424 second(s), 23 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部
TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569