数据库故障引起主机挂起??
本帖最后由 javahp 于 2013-12-10 11:43 编辑最近一套系统发现异常的问题,
起初主机A上跑着oracle,B机跑应用,在运行一段时间后A机主机挂死,将鼠标,键盘,显示器连上主机也毫无反应,crontab的调度也不行,osw进程也不在记录日志,只能重启机器,而B机正常(已经发生过多次故障)。
随即将oracle 迁移到B机,运行一段时间后B机挂死,现象和A机故障时一样(已经发生过多次故障),而在从将db迁移到B机后,A机正常。
求大神们帮忙。
SQL> select * from v$version;
BANNER
----------------------------------------------------------------
Oracle Database 10g Enterprise Edition Release 10.2.0.4.0 - 64bi
PL/SQL Release 10.2.0.4.0 - Production
CORE 10.2.0.4.0 Production
TNS for Linux: Version 10.2.0.4.0 - Production
NLSRTL Version 10.2.0.4.0 - Production
SQL> show parameter sga
NAME_COL_PLUS_SHOW_PARAM TYPE VALUE_COL_PLUS_SHOW_PARAM
------------------------------ ------------------------------ --------------------
lock_sga boolean FALSE
pre_page_sga boolean FALSE
sga_max_size big integer 12G
sga_target big integer 12G
SQL> show parameter pga
NAME_COL_PLUS_SHOW_PARAM TYPE VALUE_COL_PLUS_SHOW_
------------------------------ ------------------------------ --------------------
pga_aggregate_target big integer 3204M
$ uname -a
Linux localhost 2.6.18-238.2.AXS3 #1 SMP Tue May 17 10:04:54 CST 2011 x86_64 x86_64 x86_64 GNU/Linux
$ free -g
total used free shared buffers cached
Mem: 31 4 26 0 0 2
-/+ buffers/cache: 1 29
Swap: 31 0 31
部分的osw报告
===============================================
==========top_13.12.09.1500.dat
zzz ***2013年 12月 09日 星期一 15:39:59 CST
Tasks: 207 total, 2 running, 205 sleeping, 0 stopped, 0 zombie
Cpu(s): 2.5%us, 12.4%sy, 0.0%ni, 84.9%id, 0.2%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 32922268k total, 11370712k used, 21551556k free, 118576k buffers
Swap: 33551712k total, 1881064k used, 31670648k free, 6460320k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
9183 oracle 25 0 129m 65m 1032 S 17.8 0.2 993:56.12 OSWatcher.sh
21055 oracle 18 0 12768 1172 820 R 2.0 0.0 0:00.02 top
21314 oracle 15 0 12.1g 2.9g 2.9g S 2.0 9.3 6:24.06 oracle
10953 oracle 15 0 12.1g 116m 110m S 1.0 0.4 0:20.86 oracle
21210 oracle 25 0 0 0 0 R 1.0 0.0 0:00.01 OSWatcher.sh
1 root 15 0 10368 668 564 S 0.0 0.0 0:03.01 init
2 root RT -5 0 0 0 S 0.0 0.0 0:30.89 migration/0
============ meminfo_13.12.09.1500.dat
zzz ***一 12月 9 15:39:59 CST 2013
MemTotal: 32922268 kB
MemFree: 21560128 kB
Buffers: 118576 kB
Cached: 6460256 kB
SwapCached: 1530524 kB
Active: 8615040 kB
Inactive: 2400520 kB
HighTotal: 0 kB
HighFree: 0 kB
LowTotal: 32922268 kB
LowFree: 21560128 kB
SwapTotal: 33551712 kB
SwapFree: 31670648 kB
Dirty: 100 kB
Writeback: 0 kB
AnonPages: 2906716 kB
Mapped: 4793636 kB
Slab: 67956 kB
PageTables: 214368 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
CommitLimit: 50012844 kB
Committed_AS: 16441784 kB
VmallocTotal: 34359738367 kB
VmallocUsed: 280020 kB
VmallocChunk: 34359457911 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
Hugepagesize: 2048 kB
=============================================
系统日志 /var/log/messages 在故障时无任何记录
oracle 日志在故障时我任何记录
1、该上传的AWR意义不大
2、 无反应的时候 DB是否还能操作?
3、 平均CPU、内存如何? 是否有走势图? 谢谢大神!
故障时IP可以ping通,但是ssh,telnet 均无反应,
系统在白天都很闲的,明天我吧osw打包传上来看看! Liu Maclean(刘相兵 发表于 2013-12-9 19:47 static/image/common/back.gif
1、该上传的AWR意义不大
2、 无反应的时候 DB是否还能操作?
3、 平均CPU、内存如何? 是否有走势图? ...
谢谢大神!
故障时IP可以ping通,但是ssh,telnet 均无反应,
系统在白天都很闲的,明天我吧osw打包传上来看看
不会是hp的吧 我头一阵也是有过这个现象,可以ping通,但是ssh,telnet 均无反应,将鼠标,键盘,显示器连上主机也毫无反应 无message信息 hebin_25 发表于 2013-12-10 09:55 static/image/common/back.gif
不会是hp的吧 我头一阵也是有过这个现象,可以ping通,但是ssh,telnet 均无反应,将鼠标,键盘,显示器连 ...
服务器是HP DL388 G8的, 但是我这边hp的机器很多(其他都是DL580 和DL380 ),就这套系统出问题,但是当前A机上只是空跑着数据库(无应用连接使用的数据库),是没问题的。 建议提供 messages文件~ 附件中是 故障前的osw报告,求各位大神能分析出蛛丝马迹!谢谢! javahp 发表于 2013-12-10 11:12 static/image/common/back.gif
服务器是HP DL388 G8的, 但是我这边hp的机器很多(其他都是DL580 和DL380 ),就这套系统出问题,但是当 ...
哦 我那是红旗as3 操作系统 hp380 g8 数据库是11r2 原来一直没事 上了存储后加multipath 后 第二天出现过一次这个问题,重启后至今没出过事呢 三周了,怀疑是多路径和操作系统的问题 hebin_25 发表于 2013-12-10 11:16 static/image/common/back.gif
哦 我那是红旗as3 操作系统 hp380 g8 数据库是11r2 原来一直没事 上了存储后加multipath 后 第二天出现 ...
我也是 红旗as3 ,而且还是文件系统的小库,数据量不到10G,故障毫无规律可言,有时候半年,有时候2个月,有时候1周,感觉无从下手找根源。 也是HP的,我们也出现过。RAC的,2台相继挂啦。OSW也是没了。没响应,黑屏。现在根据oracle和HP的建议,准备升级firmware。 osw包括挂起前最后时刻的记录吗?这种现象就像是典型的内存耗尽,但这份osw看到的空闲内存还很多,且最后时刻也看不出下降趋势
messages日志已上传,故障时间为20131209 15:40分左右 harryzhang 发表于 2013-12-10 11:14 static/image/common/back.gif
建议提供 messages文件~
messages日志已上传,故障时间为20131209 15:40分左右
页:
[1]