zhm2815

53 积分	0 好友	3 主题

发消息

[RAC Clusterware] oracle 10g 数据库hang

1^#

发表于 2013-7-23 21:11:40 | 查看: 4315| 回复: 8

本帖最后由 zhm2815 于 2013-7-30 00:39 编辑

有一套oracle单机系统：aix 6.1，10.2.0.5.4。最近两周已经发生过两次hang住了。
上周二凌晨3:00时hang住之后，第二天早晨把几个占用资源较多的链接杀掉之后，数据库恢复正常。查看alert日志没有明显错误。
今天又发生了hang，然后做了system dump 和hang analysis(见附件)。
我自己仔细的看了下，没有看出根源，请各位大侠帮忙分析分析，万分感谢！

补充AWR：
awrrpt_1_14071_14074：第一次hang，7月16日的0-3点(发现问题也是9点左右，但是看日志应该从3点就开始hang了)
awrrpt_1_14185_14188：第二次hang的前一天，7月21日0-3点
awrrpt_1_14209_14212：第二次hang，7月22日0-3点
awrrpt_1_14216_14218：第二次hang，7月22日7-9点(发现hang的时间是9点左右，但是中间snapshot收集正常)

感谢各位的关注！

precisedb_ora_11844.trc.gz

1.8 MB, 下载次数: 1003

oradebug

awrrpt_1_14071_14074.html

302.74 KB, 下载次数: 773

16日0-3点

awrrpt_1_14185_14188.html

269.89 KB, 下载次数: 753

21日0-3点

awrrpt_1_14209_14212.html

286.05 KB, 下载次数: 756

22日0-3点

awrrpt_1_14216_14218.html

267.74 KB, 下载次数: 735

22日7-9点

分享0

收藏0 回复只看该作者道具举报

harryzhang

2^#

发表于 2013-7-28 16:31:25

MMAN在等待：rdbms ipc message
进程1372,OSPID=24995 holding (efd=4) 194ee5590 Child library cache lock allocation level=3 child#=9 ,waiting for 'SGA: allocation forcing component growth' wait_time=0, seconds since wait started=849

用了ASMM的吧。
有无AWR

回复只看该作者道具举报

harryzhang

3^#

发表于 2013-7-28 16:36:05

MMAN
SGA Background Process
The Automatic Shared Memory Management feature uses a new background process named Memory Manager (MMAN). MMAN serves as the SGA Memory Broker and coordinates the sizing of the memory components. The SGA Memory Broker keeps track of the sizes of the components and pending resize operations

回复只看该作者道具举报

Maclean Liu(刘相兵

4^#

发表于 2013-7-28 19:25:10

给出AWR

回复只看该作者道具举报

zhm2815

5^#

发表于 2013-7-30 00:40:55

harryzhang 发表于 2013-7-28 16:31
MMAN在等待：rdbms ipc message
进程1372,OSPID=24995 holding (efd=4) 194ee5590 Child library ...

感谢关注，已经上传了。

回复只看该作者道具举报

zhm2815

6^#

发表于 2013-7-30 00:41:26

Maclean Liu(刘相兵发表于 2013-7-28 19:25
给出AWR

感谢刘大关注，已上传。

回复只看该作者道具举报

harryzhang

7^#

发表于 2013-7-30 09:50:14

几次都是0-3点，期间没特别的活动？没定时任务？？

16日：

Event Waits %Time -outs Total Wait Time (s) Avg wait (ms) Waits /txn
SGA: allocation forcing component growth 54,297,451 0 6,056 0 907.5

回复只看该作者道具举报

zhm2815

8^#

发表于 2013-7-30 10:34:47

本帖最后由 zhm2815 于 2013-7-30 10:38 编辑

harryzhang 发表于 2013-7-30 09:50
几次都是0-3点，期间没特别的活动？没定时任务？？

16日：

只hang了两次，第一次没来的及收集oradebug信息，占用资源比较大的3个oracle链接kill掉之后，数据库恢复正常。
那个系统半夜12点开始有跑批作业，所以夜晚比较忙，白天比较闲。
开始我们怀疑是oracle gather database stats 任务和业务跑批时间重叠导致，内存不够用。但是，没有找到相关日志证明，暂时没有调整。我想做以下调整：
1.加大sga，并且设置几个关键pool的最小大小。
2.修改oracle gather database stats 任务，避开系统业务高峰。

但是，现在还没有找到理论支持。

再次感谢，harryzhang的关注和回复。

回复只看该作者道具举报

gdpr-dba

9^#

发表于 2013-7-30 20:48:34

是不是晚上会有很多分区的维护操作，导致shared pool关于分区的那块内存产生剧烈的抖动，感觉有点像bug，建议先关掉ASMM。

回复只看该作者道具举报

返回列表

		自动登录	找回密码
密码			注册