Oracle数据库数据恢复、性能优化

找回密码
注册
搜索
热搜: 活动 交友 discuz
发新帖

75

积分

1

好友

8

主题
1#
发表于 2014-9-30 11:21:13 | 查看: 5559| 回复: 4
环境描述:
  1. AIX 6100-04
  2. 节点数:2
复制代码
数据库:
  1. Oracle 10g RAC + ASM 10.2.0.4
复制代码
问题描述:

1)RAC 1号节点主机HBA卡出现故障(单卡),导致1号节点CRS服务停止


查看cssd.log:
28日12点48分,1号节点存储掉了。。。
  1. ……
  2. [    CSSD]2014-09-28 12:48:03.014 [1801] >ERROR:   Internal Error Information:
  3.   Category: 1234
  4.   Operation: scls_block_read
  5.   Location: fread_failed
  6.   Other: fread unable to read buffer
  7.   Dep: 19

  8. [    CSSD]2014-09-28 12:48:03.014 [1801] >ERROR:   clssnmvReadBlocks: read failed 1 at offset 658 of /dev/rhdisk3
  9. [    CSSD]2014-09-28 12:48:03.014 [1801] >TRACE:   clssnmDiskStateChange: state from 4 to 3 disk (0//dev/rhdisk3)
  10. [    CSSD]2014-09-28 12:48:03.014 [2572] >TRACE:   clssnmDiskPMT: disk offline (0//dev/rhdisk3)
  11. [    CSSD]2014-09-28 12:48:03.123 [3086] >TRACE:   clssgmDeadProc: proc 111f53e70
  12. [    CSSD]2014-09-28 12:48:03.123 [3086] >TRACE:   clssgmUnregisterClient(): removing proc 16 client 1, flags 0x08000000
  13. [    CSSD]2014-09-28 12:48:03.123 [3086] >TRACE:   clssgmUnregisterClient: member ref count now 9
  14. ……
复制代码
2)29号,在替换完HBA卡后,存储重新MAPPING LUN到1号主机,硬件故障解决1号节点HBA卡故障修复后,重新认到存储
在没有修改磁盘权限和组属时,启动crs,显示权限问题:

/tmp/crsctl.xxxx
  1. 2014-09-29 16:50:21.100: [  OCROSD][1]utopen:7:failed to open OCR file/disk /dev/rhdisk2 /dev/rhdisk6, errno=13, o
  2. s err string=Permission denied
复制代码
3)同时修改1号节点磁盘的权限、组属关系:
  1. jxsmdb1->id oracle
  2. uid=203(oracle) gid=202(oinstall) groups=201(dba)
复制代码
修改权限:
  1. #for i in 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  2. >do
  3. >chmod 660 /dev/rhdisk$i
  4. >done
复制代码
OCR DISK:
  1. #chown root:oinstall /dev/rhdisk2 /dev/rhdisk6
复制代码
修改属组:
  1. #for i in 3 4 5 7 8 9 10 11 12 13 14 15
  2. >do
  3. >chown oracle:oinstall /dev/rhdisk$i
  4. >done
复制代码
1号节点尝试启动CRS:
  1. jxsmdb1->crsctl start crs
  2. Attempting to start CRS stack
  3. The CRS stack will be started shortly
复制代码
查看crsd.log
  1. ……
  2. [ CSSCLNT][1]clsssInitNative: connect failed, rc 9

  3. [  CRSRTI][1]32CSS is not ready. Received status 3 from CSS. Waiting for good status ..
  4. ……
复制代码
4)检查了相关资料,MOS 726925.1
清空了/var/tmp/.oracle对应的socket文件,重启主机后,问题依旧
备注:该步骤与crs启动失败无必然关系,在死马当活马医了!!!

crsd and cssd.rar

356.62 KB, 下载次数: 1764

2#
发表于 2014-9-30 13:27:02
[    CSSD]2014-08-27 22:25:41.283 >USER:    Copyright 2014, Oracle version 10.2.0.4.0
[    CSSD]2014-08-27 22:25:41.283 >USER:    CSS daemon log for node jxsmdb1, number 1, in cluster crs


就日志看 ,最近的一次启动CRS是在 2014-8-27 ,没有看到其他重启cSS日志

  Category: 1234
  Operation: scls_block_write
  Location: fwrite_faile
  Other: fwrite unable to write buffer
  Dep: 19

[    CSSD]2014-09-28 12:48:04.244 [1544] >ERROR:   clssnmvWriteBlocks: write failed 1 at offset 146 of /dev/rhdisk5
[    CSSD]2014-09-28 12:48:04.244 [1544] >TRACE:   clssnmDiskStateChange: state from 4 to 3 disk (2//dev/rhdisk5)
[    CSSD]2014-09-28 12:48:04.244 [2572] >TRACE:   clssnmDiskPMT: disk offline (0//dev/rhdisk3)
[    CSSD]2014-09-28 12:48:04.244 [2572] >TRACE:   clssnmDiskPMT: disk offline (2//dev/rhdisk5)
[    CSSD]2014-09-28 12:48:04.244 [2572] >ERROR:   clssnmDiskPMT: Aborting, 2 of 3 voting disks unavailable
[    CSSD]2014-09-28 12:48:04.244 [2572] >ERROR:   ###################################
[    CSSD]2014-09-28 12:48:04.244 [2572] >ERROR:   clssscExit: CSSD aborting
[    CSSD]2014-09-28 12:48:04.244 [2572] >ERROR:   ###################################
[    CSSD]--- DUMP GROCK STATE DB ---
[    CSSD]----------
[    CSSD]  type 2, Id 4, Name = (crs_version)
[    CSSD]  flags: 0x0
[    CSSD]  grant: count=0, type 0, wait 0



[    CSSD]2014-09-28 12:48:04.244 [1544] >ERROR:   clssnmvWriteBlocks: write failed 1 at offset 146 of /dev/rhdisk5


你确定/dev/rhdisk5 是正常的?

回复 只看该作者 道具 举报

3#
发表于 2014-9-30 14:15:20
本帖最后由 yehc@epsoft.com 于 2014-9-30 14:20 编辑
Maclean Liu(刘相兵 发表于 2014-9-30 13:27
[    CSSD]2014-08-27 22:25:41.283 >USER:    Copyright 2014, Oracle version 10.2.0.4.0
[    CSSD]2014 ...
  1. CSSD]2014-09-28 12:48:04.244 [1544] >ERROR:   clssnmvWriteBlocks: write failed 1 at offset 146 of /dev/rhdisk5
复制代码
2014-09-28 12:48:04.244 这个时间点,的确1号节点认不到存储,HBA故障,但目前1号节点上都能认到存储,而且dd测试所以的磁盘正常。
  1. jxsmdb1->id
  2. uid=203(oracle) gid=202(oinstall) groups=201(dba)
  3. jxsmdb1->date
  4. Tue Sep 30 14:09:46 BEIST 2014
  5. jxsmdb1->dd if=/dev/rhdisk5 of=/dev/null bs=1024 count=1000
  6. 1000+0 records in.
  7. 1000+0 records out.
  8. jxsmdb1->dd if=/dev/rhdisk5 of=/soft/rhdisk5.ts bs=1024 count=1000
  9. 1000+0 records in.
  10. 1000+0 records out.
  11. jxsmdb1->strings /soft/rhdisk5.ts |more

  12. ?z{|}
  13. cLssTock
  14. clSs0pEr
  15. CLSf
  16. Vote
  17. jxsmdb1
  18. 孝倦
  19. Sd
  20. Vote
  21. jxsmdb2
  22. T*IN

  23.       CLSf
复制代码
  1. jxsmdb1->crsctl query css votedisk
  2. 0.     0    /dev/rhdisk3
  3. 1.     0    /dev/rhdisk4
  4. 2.     0    /dev/rhdisk5

  5. located 3 votedisk(s).
  6. jxsmdb1->ocrcheck
  7. Status of Oracle Cluster Registry is as follows :
  8.          Version                  :          2
  9.          Total space (kbytes)     :    2096812
  10.          Used space (kbytes)      :       3868
  11.          Available space (kbytes) :    2092944
  12.          ID                       : 1005635852
  13.          Device/File Name         : /dev/rhdisk2
  14.                                     Device/File integrity check succeeded
  15.          Device/File Name         : /dev/rhdisk6
  16.                                     Device/File integrity check succeeded

  17.          Cluster registry integrity check succeeded
复制代码
两节点CRS进程比较:
1号节点(CRS失败)
  1. jxsmdb1->ps -ef |grep crs
  2.   oracle 151572 250478   0 14:12:14      -  0:00 /oracle/product/10.2.0/crs/bin/oclsomon.bin
  3.   oracle 184320 180244   0 14:10:57      -  0:00 /oracle/product/10.2.0/crs/bin/evmd.bin
  4.   oracle 123214 127028   0 14:15:16  pts/0  0:00 grep crs
  5.   oracle 250478 115310   0 14:12:14      -  0:00 /bin/sh -c cd /oracle/product/10.2.0/crs/log/jxsmdb1/cssd/oclsomon; ulimit -c unlimited; /oracle/product/10.2.0/crs/bin/oclsomon  || exit $?
  6.     root  62308  86972   0 14:10:34      -  0:00 /oracle/product/10.2.0/crs/bin/crsd.bin restart
  7.     root  86972      1   0 14:10:34      -  0:00 /bin/sh /etc/init.crsd run
复制代码
2号节点(CRS正常)
  1. jxsmdb2->ps -ef |grep crs
  2.   oracle 118884 147588   0   Mar 01      - 518:21 /oracle/product/10.2.0/crs/bin/ocssd.bin
  3.   oracle 147588  33030   0   Mar 01      -  0:00 /bin/sh -c ulimit -c unlimited; cd /oracle/product/10.2.0/crs/log/jxsmdb2/cssd; /oracle/product/10.2.0/crs/bin/ocssd  || exit $?
  4.   oracle 237584      1   0   Mar 02      -  0:00 /oracle/product/10.2.0/crs/opmn/bin/ons -d
  5.     root 340096 242426   2 17:19:49      - 15:53 /oracle/product/10.2.0/crs/bin/crsd.bin restart
  6.   oracle 106862 139442   0   Mar 01      - 36:00 /oracle/product/10.2.0/crs/bin/evmd.bin
  7.   oracle 123380  95080   0   Mar 01      - 43:54 /oracle/product/10.2.0/crs/bin/oclsomon.bin
  8.   oracle 143642 237584   0   Mar 02      -  6:04 /oracle/product/10.2.0/crs/opmn/bin/ons -d
  9.     root 242426      1   0 17:18:47      -  0:00 /bin/sh /etc/init.crsd run
  10.   oracle  95080  98742   0   Mar 01      -  0:00 /bin/sh -c cd /oracle/product/10.2.0/crs/log/jxsmdb2/cssd/oclsomon; ulimit -c unlimited; /oracle/product/10.2.0/crs/bin/oclsomon  || exit $?
  11.   oracle 119712 106862   0   Mar 01      -  2:01 /oracle/product/10.2.0/crs/bin/evmlogger.bin -o /oracle/product/10.2.0/crs/evm/log/evmlogger.info -l /oracle/product/10.2.0/crs/evm/log/evmlogger.log
  12.     root 123668 123578   0   Mar 01      -  9:17 /oracle/product/10.2.0/crs/bin/oprocd.bin run -t 1000 -m 500 -f
  13.   oracle 340922 418496   0 14:16:20  pts/2  0:00 grep crs
复制代码

回复 只看该作者 道具 举报

4#
发表于 2014-10-1 21:25:30
yehc@epsoft.com 发表于 2014-9-30 14:15
2014-09-28 12:48:04.244 这个时间点,的确1号节点认不到存储,HBA故障,但目前1号节点上都能认到存储,而 ...


为什么你给出的cssd.log 中没有后续的日志?

2种可能:

1、你取的日志有问题
2、cssd.bin无法正常启动 也甚至无法输出任何日志

回复 只看该作者 道具 举报

5#
发表于 2014-10-8 09:07:55
Maclean Liu(刘相兵 发表于 2014-10-1 21:25
为什么你给出的cssd.log 中没有后续的日志?

2种可能:

cssd.bin无法正常启动 也甚至无法输出任何日志  cssd无法正常启动是日志没有继续输出的原因。目前问题暂时解决
过程:

1号节点上手动执行 /oracle/product/10.2.0/crs/bin/oprocd.bin run -t 1000 -m 500 -f


回复 只看该作者 道具 举报

您需要登录后才可以回帖 登录 | 注册

QQ|手机版|Archiver|Oracle数据库数据恢复、性能优化

GMT+8, 2024-12-21 02:07 , Processed in 0.052753 second(s), 23 queries .

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部
TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569