- 最后登录
- 2017-5-21
- 在线时间
- 20 小时
- 威望
- 0
- 金钱
- 152
- 注册时间
- 2013-10-10
- 阅读权限
- 10
- 帖子
- 27
- 精华
- 0
- 积分
- 0
- UID
- 1282
|
1#
发表于 2013-11-14 16:45:43
|
查看: 3376 |
回复: 1
Soalris 5.10 11.2.0.1
数据库宕机:
Wed Nov 13 13:40:51 2013
WARNING: aiowait timed out 1 times
Wed Nov 13 13:41:17 2013
Errors in file /u01/oracle/diag/rdbms/ads/ads/trace/ads_m000_10927.trc:
ORA-12751: 违反了 CPU 时间或运行时间策略
Wed Nov 13 13:45:52 2013
ERROR: Unable to normalize symbol name for the following short stack (at offset 88):
dbgexProcessError()+164<-dbgePostErrorKGE()+1244<-kgerec4()+32<-kjdgpstackdmp()+1132<-_$c1A.kjdglblkrdmpint()+244<-ksikblkrdmp()+228<-ksqgtlctx()+10356<-ksqgelctx()+772<-kcc_get_enqueue()+744<-kccocx()+584<-kcc_begin_txn_internal()+80<-kcrfwl()+732<-ksbabs()+1420<-ksbrdp()+1228<-opirip()+1108<-opidrv()+776<-sou2o()+92<-opimai_real()+516<-ssthrdmain()+240<-main()+308<-_start()+380
Errors in file /u01/oracle/diag/rdbms/ads/ads/trace/ads_lgwr_715.trc (incident=138558):
ORA-00494: 持有入队 [CF] 的时间过长 (超过 900 秒) (由 'inst 1, osid 719')
Incident details in: /u01/oracle/diag/rdbms/ads/ads/incident/incdir_138558/ads_lgwr_715_i138558.trc
Killing enqueue blocker (pid=719) on resource CF-00000000-00000000 by (pid=715)
by killing session 913.1
Killing enqueue blocker (pid=719) on resource CF-00000000-00000000 by (pid=715)
by terminating the process
LGWR (ospid: 715): terminating the instance due to error 2103
Instance terminated by LGWR, pid = 715
重新启动数据库,instance recovery 1.3G的redo花了快20分钟,并且发现OS 负载非常高(200左右),数据库open后,开启了enable restricted session,自己拿scott用户做了一下测试(只是几个百万级的insert)发现redo切换后一直处于ACTIVE状态,
SYS@ads> select * from v$log;
GROUP# THREAD# SEQUENCE# BYTES BLOCKSIZE MEMBERS ARC STATUS FIRST_CHANGE# FIRST_TIME NEXT_CHANGE# NEXT_TIME
---------- ---------- ---------- ---------- ---------- ---------- --- ---------------- ------------- ------------ ------------ ------------
1 1 1751 524288000 512 1 NO ACTIVE 4.3803E+10 14-NOV-13 4.3803E+10 14-NOV-13
2 1 1749 524288000 512 1 NO ACTIVE 4.3803E+10 14-NOV-13 4.3803E+10 14-NOV-13
3 1 1750 524288000 512 1 NO ACTIVE 4.3803E+10 14-NOV-13 4.3803E+10 14-NOV-13
4 1 1752 524288000 512 1 NO ACTIVE 4.3803E+10 14-NOV-13 4.3803E+10 14-NOV-13
5 1 1753 524288000 512 1 NO CURRENT 4.3803E+10 14-NOV-13 2.8147E+14
手动触发检查点15分钟才完成,这期间观察系统资源使用情况,memory和swap都没问题,但是I/O比较繁忙(nfs21)
-bash-3.00# iostat -xtc 2 1000
extended device statistics tty cpu
device r/s w/s kr/s kw/s wait actv svc_t %w %b tin tout us sy wt id
sd0 0.1 10.2 18.5 541.1 0.0 0.1 13.3 0 4 0 2 1 1 0 99
sd1 0.1 10.2 18.5 541.1 0.0 0.1 13.5 0 4
sd2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs1 0.0 0.0 0.0 0.0 0.0 0.0 0.1 0 0
nfs21 25.5 15.3 706.9 173.1 0.5 0.3 18.0 0 14
nfs22 8.7 7.4 229.3 113.5 0.1 0.1 15.4 0 6
nfs23 1.1 0.7 30.2 23.8 0.0 0.0 7.7 0 0
extended device statistics tty cpu
device r/s w/s kr/s kw/s wait actv svc_t %w %b tin tout us sy wt id
sd0 0.0 5.0 0.0 131.6 0.0 0.0 6.0 0 3 0 388 1 1 0 99
sd1 0.0 5.0 0.0 131.6 0.0 0.0 2.9 0 1
sd2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs21 15.9 105.2 510.3 841.2 0.0 2.0 16.8 0 100
nfs22 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs23 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
extended device statistics tty cpu
device r/s w/s kr/s kw/s wait actv svc_t %w %b tin tout us sy wt id
sd0 0.0 1.0 0.0 44.0 0.0 0.0 5.6 0 1 0 2169 0 1 0 98
sd1 0.0 1.0 0.0 44.0 0.0 0.0 8.2 0 1
sd2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs21 16.0 100.6 512.3 804.5 0.0 2.2 18.6 0 100
nfs22 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs23 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
extended device statistics tty cpu
device r/s w/s kr/s kw/s wait actv svc_t %w %b tin tout us sy wt id
sd0 0.0 5.0 0.0 148.0 0.0 0.0 4.6 0 2 0 390 0 0 0 99
sd1 0.0 5.0 0.0 148.0 0.0 0.0 5.5 0 2
sd2 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs21 0.0 120.5 0.0 963.9 0.0 2.4 20.2 0 100
nfs22 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
nfs23 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0 0
自己在nfs21上dd测试了一下发现存储没有问题,但是不知道为什么DBWn为什么写的这么慢,而且在写检查点的时候DBWn对应的OS进程CPU使用会升高(4个DBWn,每个8%左右),这个库跑了很长时间了,以前没出现过这个问题,大神儿们帮忙给点思路吧!! |
|