aix cluster起不来啦！

ALLSTARS_ORACLE 发表于 2017-4-16 09:27:43

昨天晚上做了一次reboot，没有shutdown 就直接reboot了(愤怒了)，
然后cluster就起不来了。

启动直接进入CDE界面。
按command line loggin 自动退回到CDE登陆界面。
CDE进不去。只能用failsafe模式登陆。
进入以后，
smitty clstart结果如下：
Before command completion, additional instructions may appear below.

Nov 23 2001 10:31:22 Starting execution of /usr/sbin/cluster/etc/rc.cluster
with parameters : -boot -N -b
Nov 23 2001 10:31:24 Checking for srcmstr active...Nov 23 2001 10:31:24 complete.
135742    -  0:00 syslogd
Nov 23 2001 10:31:25 0513-059 The clsmuxpd Subsystem has been started. Subsystem PID is 291818.
Nov 23 2001 10:31:28

Completed execution of /usr/sbin/cluster/etc/rc.cluster
with parameters: -boot -N -b.
Exit Status = 0.

本来app_svc启动时候ip是192.168.8.14,cluster启动以后IP变成192.168.8.13，
现在，ping 13不通。只能telnet到·14IP地址。

tail -f /tmp/hacmp.out文件为空。

# ping app_svc
PING app_svc: (192.168.8.13): 56 data bytes

^C
----app_svc PING Statistics----
14 packets transmitted, 0 packets received, 100% packet loss
相关的进程启动情况：
# lssrc -a |grep cl
clstrmgr       cluster       140420 stopping
clsmuxpd       cluster       291818 active
clvmd                                  inoperative
#
那一位熟悉HACMP的高手指点指点，为什么停也停不掉，起也起不来。
什么讲hacmp的书能够帮我快速入门，尽快搞定这个问题？推荐推荐？
谢谢啦！

想起来我删除国一个卷组：appvg，后来重建了这个卷组。
但是这个卷组在另外一个节点上看不到。
就是在另外一个节点上执行lspv 看到被这个节点做成vg的硬盘在那边节点上还是空白的。
好像需要exportvg/importvg，但是怎么做阿？exportg之后，vg数据就没有落？
我试了一下先在节点a上exportvg appvg，
然后导入：importvg -y appvg hdisk5
这边成功了，但是另外一个节点上：
# importvg -y appvg hdisk5
0516-024 lqueryvg: Unable to open physical volume.
      Either PV was not configured or could not be opened. Run
      diagnostics.
0516-024 lqueryvg: Unable to open physical volume.
怎么回事？
谢谢大家指点啦
      Either PV was not configured or could not be opened. Run
      diagnostics.
0516-562 redefinevg: Unable to access physical volume hdisk5
0516-780 importvg: Unable to import volume group from hdisk5.

我重新做了一遍，前面几个步骤都成功，但是最后那个步骤还是出同样的错。
可能是物理有问题，因为errpt报adapter open serial link错误。
可能需要IBM的硬件人看看？
这个ssa硬盘怎么连接地也看不懂。
我是做Oracle的，所以不培训我Unix，但是那几个培训了Unix的还不如我，于是...

但是你说的那个varyonvg appvg是指在那个机器上执行？如果在第一个节点的话，本来已经是varyon的落，第二个节点？同时把它varyon？
而且我发现importvg之后，自动varyon了，需要把它varyoff吗？

完了，major number不一样，一个是49，一个是53。
是有问题。
启动cluster还是停在中间。
/tmp/hacmp.out里面没有新的输出。
通过smit hacmp里面的
list all shared vg OK, 通过。
list all shared lv: 出错。说是APPVG：cannot locate vg apvg.
list all shred filesystem: OK，通过。
用verify cluster 菜单，保一个warning, vg major number conflict, 就是老大你说的那个。
还有时
1.vg datavg on node dbnode is configured to autovaryon.
2.vg app vg on node appnode is configured to auto varyon.
后面两个应该是问题不大吧？
主要还是前面的错误？
如何让major number一致？

嘿嘿，高定了～！
谢谢各位大虾了！
途径：
1。参考hacmp admin guide，删除原有定义的逻辑卷
2。在原始节点重新生成了新的逻辑卷和卷组，文件系统，按照步骤一个一个进行。
3。停止两台机器，
4。在另外一个节点上Import vg，检查无误。
5。两台机器cmitty clstart，成功。
谢谢各位大虾！

另一问：
似乎cluster不能在图形界面下启动？可以吗？
给我们安装cluster的公司留下步骤说要在command line login下面启动cluster，然后再用图形界面进入。
我在一个节点无法启动cluster的情况下，也无法正常启动CDE，进入就停在初始化界面里面了。
这个CDE和cluster还有什么关系？
谢谢！

就是说没有关系啦？我可以直接从图形界面进入，启动cluster，没有关系？

但是cluster启动以后，IP地址会改变得啊？应该说IP和cluster还是有关系的？也就是何cluster有关系？
大虾啊，顺便帮我看看那个maxuproc的问题吧，他有时候出现，有时候也不出现，我不知道怎么回事？
现在今天好像没有问题了。

你说用ps -ef看进程的状态，看哪一列的信息啊？
看不出有什么可以查看得地方，不好意思，请指点。

你们大家怎么会有这么多机会配置HA？
我是这边的大机器暂时没有用作产品数据库，才可以自己折腾两天。
不是做集成的，很少能有机会配置HA？尤其实IBM的那个巨昂贵的东东？

页: [1]

Oracle数据库数据恢复、性能优化's Archiver

aix cluster起不来啦！