javahp 发表于 2013-12-9 17:49:47

数据库故障引起主机挂起??

本帖最后由 javahp 于 2013-12-10 11:43 编辑

最近一套系统发现异常的问题,
起初主机A上跑着oracle,B机跑应用,在运行一段时间后A机主机挂死,将鼠标,键盘,显示器连上主机也毫无反应,crontab的调度也不行,osw进程也不在记录日志,只能重启机器,而B机正常(已经发生过多次故障)。
随即将oracle 迁移到B机,运行一段时间后B机挂死,现象和A机故障时一样(已经发生过多次故障),而在从将db迁移到B机后,A机正常。


求大神们帮忙。

SQL> select * from v$version;

BANNER
----------------------------------------------------------------
Oracle Database 10g Enterprise Edition Release 10.2.0.4.0 - 64bi
PL/SQL Release 10.2.0.4.0 - Production
CORE    10.2.0.4.0      Production
TNS for Linux: Version 10.2.0.4.0 - Production
NLSRTL Version 10.2.0.4.0 - Production

SQL>  show parameter sga

NAME_COL_PLUS_SHOW_PARAM       TYPE               VALUE_COL_PLUS_SHOW_PARAM
------------------------------ ------------------------------ --------------------
lock_sga                       boolean                        FALSE
pre_page_sga                   boolean                        FALSE
sga_max_size                   big integer                    12G
sga_target                     big integer                    12G


SQL>  show parameter pga

NAME_COL_PLUS_SHOW_PARAM       TYPE                           VALUE_COL_PLUS_SHOW_
------------------------------ ------------------------------ --------------------
pga_aggregate_target           big integer                    3204M

$ uname -a
Linux localhost 2.6.18-238.2.AXS3 #1 SMP Tue May 17 10:04:54 CST 2011 x86_64 x86_64 x86_64 GNU/Linux

$ free -g  
             total       used       free     shared    buffers     cached
Mem:            31          4         26          0          0          2
-/+ buffers/cache:          1         29
Swap:           31          0         31




部分的osw报告
===============================================
==========top_13.12.09.1500.dat
zzz ***2013年 12月 09日 星期一 15:39:59 CST
Tasks: 207 total,   2 running, 205 sleeping,   0 stopped,   0 zombie
Cpu(s):  2.5%us, 12.4%sy,  0.0%ni, 84.9%id,  0.2%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  32922268k total, 11370712k used, 21551556k free,   118576k buffers
Swap: 33551712k total,  1881064k used, 31670648k free,  6460320k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
9183 oracle    25   0  129m  65m 1032 S 17.8  0.2 993:56.12 OSWatcher.sh
21055 oracle    18   0 12768 1172  820 R  2.0  0.0   0:00.02 top
21314 oracle    15   0 12.1g 2.9g 2.9g S  2.0  9.3   6:24.06 oracle
10953 oracle    15   0 12.1g 116m 110m S  1.0  0.4   0:20.86 oracle
21210 oracle    25   0     0    0    0 R  1.0  0.0   0:00.01 OSWatcher.sh
    1 root      15   0 10368  668  564 S  0.0  0.0   0:03.01 init
    2 root      RT  -5     0    0    0 S  0.0  0.0   0:30.89 migration/0

============ meminfo_13.12.09.1500.dat
zzz ***一 12月 9 15:39:59 CST 2013
MemTotal:     32922268 kB
MemFree:      21560128 kB
Buffers:        118576 kB
Cached:        6460256 kB
SwapCached:    1530524 kB
Active:        8615040 kB
Inactive:      2400520 kB
HighTotal:           0 kB
HighFree:            0 kB
LowTotal:     32922268 kB
LowFree:      21560128 kB
SwapTotal:    33551712 kB
SwapFree:     31670648 kB
Dirty:             100 kB
Writeback:           0 kB
AnonPages:     2906716 kB
Mapped:        4793636 kB
Slab:            67956 kB
PageTables:     214368 kB
NFS_Unstable:        0 kB
Bounce:              0 kB
CommitLimit:  50012844 kB
Committed_AS: 16441784 kB
VmallocTotal: 34359738367 kB
VmallocUsed:    280020 kB
VmallocChunk: 34359457911 kB
HugePages_Total:     0
HugePages_Free:      0
HugePages_Rsvd:      0
Hugepagesize:     2048 kB

=============================================

系统日志 /var/log/messages 在故障时无任何记录
oracle 日志在故障时我任何记录







Liu Maclean(刘相兵 发表于 2013-12-9 19:47:05

1、该上传的AWR意义不大
2、 无反应的时候  DB是否还能操作?
3、 平均CPU、内存如何?  是否有走势图?

javahp 发表于 2013-12-9 20:56:22

谢谢大神!
故障时IP可以ping通,但是ssh,telnet 均无反应,
系统在白天都很闲的,明天我吧osw打包传上来看看!

javahp 发表于 2013-12-9 20:56:51

Liu Maclean(刘相兵 发表于 2013-12-9 19:47 static/image/common/back.gif
1、该上传的AWR意义不大
2、 无反应的时候  DB是否还能操作?
3、 平均CPU、内存如何?  是否有走势图? ...

谢谢大神!
故障时IP可以ping通,但是ssh,telnet 均无反应,
系统在白天都很闲的,明天我吧osw打包传上来看看

hebin_25 发表于 2013-12-10 09:55:41

不会是hp的吧 我头一阵也是有过这个现象,可以ping通,但是ssh,telnet 均无反应,将鼠标,键盘,显示器连上主机也毫无反应 无message信息

javahp 发表于 2013-12-10 11:12:37

hebin_25 发表于 2013-12-10 09:55 static/image/common/back.gif
不会是hp的吧 我头一阵也是有过这个现象,可以ping通,但是ssh,telnet 均无反应,将鼠标,键盘,显示器连 ...

服务器是HP DL388 G8的, 但是我这边hp的机器很多(其他都是DL580 和DL380 ),就这套系统出问题,但是当前A机上只是空跑着数据库(无应用连接使用的数据库),是没问题的。

harryzhang 发表于 2013-12-10 11:14:47

建议提供 messages文件~

javahp 发表于 2013-12-10 11:15:06

附件中是 故障前的osw报告,求各位大神能分析出蛛丝马迹!谢谢!

hebin_25 发表于 2013-12-10 11:16:33

javahp 发表于 2013-12-10 11:12 static/image/common/back.gif
服务器是HP DL388 G8的, 但是我这边hp的机器很多(其他都是DL580 和DL380 ),就这套系统出问题,但是当 ...

哦 我那是红旗as3 操作系统 hp380 g8 数据库是11r2 原来一直没事  上了存储后加multipath 后 第二天出现过一次这个问题,重启后至今没出过事呢 三周了,怀疑是多路径和操作系统的问题

javahp 发表于 2013-12-10 11:39:18

hebin_25 发表于 2013-12-10 11:16 static/image/common/back.gif
哦 我那是红旗as3 操作系统 hp380 g8 数据库是11r2 原来一直没事  上了存储后加multipath 后 第二天出现 ...

我也是 红旗as3 ,而且还是文件系统的小库,数据量不到10G,故障毫无规律可言,有时候半年,有时候2个月,有时候1周,感觉无从下手找根源。

huqianhao 发表于 2013-12-10 12:27:56

也是HP的,我们也出现过。RAC的,2台相继挂啦。OSW也是没了。没响应,黑屏。现在根据oracle和HP的建议,准备升级firmware。

laobu 发表于 2013-12-10 12:31:31

osw包括挂起前最后时刻的记录吗?这种现象就像是典型的内存耗尽,但这份osw看到的空闲内存还很多,且最后时刻也看不出下降趋势

javahp 发表于 2013-12-10 12:46:12

messages日志已上传,故障时间为20131209 15:40分左右

javahp 发表于 2013-12-10 12:46:30

harryzhang 发表于 2013-12-10 11:14 static/image/common/back.gif
建议提供 messages文件~

messages日志已上传,故障时间为20131209 15:40分左右
页: [1]
查看完整版本: 数据库故障引起主机挂起??