由于计算节点更换硬盘,需要重新安装系统的过程 v1.0
注意:本文只涉及nkstar1运行良好的情况下对计算节点的安装,步涉及如何配置nkstar1上的服务。
该过程主要分为两个主要过程:
一、通过dhpc tftp kickstart http协议从nkstar1上安装一个完整的rh9。0的系统
二、在计算节点上安装2.4.23aa2nks3内核、修改lilo、安装gm驱动程序
三、手动更新autonfs,ld.so.conf等配置文件。
以node280节点为例,过程说明如下:
一、安装基本的rh9。0系统
1.1 找到node280对应的ip 172.16.1.26,转换为十六进制数AC10011A
1.2 打开/tftpboot/pxelinux.cfg/AC10011A文件,看到内容如下;
#boot
SERIAL 0 9600
DEFAULT xCAT
LABEL xCAT
LOCALBOOT 0
修改成
#install compute90-all
SERIAL 0 9600
DEFAULT xCAT
LABEL xCAT
KERNEL xcat/ks90z
#APPEND root=/dev/ram mem=128M console=tty1 ks=file:/tmp/ks.cfg initrd=xcat/compute90-all.gz
#APPEND root=/dev/ram mem=128M console=tty1 ks=nfs:NKStar1:/install/ks90/compute90-all.ks initrd=xcat/compute90-all.gz
APPEND root=/dev/ram mem=128M console=tty1 ks=nfs:NKStar1:/install/ks90/compute90-all.ks ksdevice=eth0 initrd=xcat/ks90.gz
1.3 重新启动node264然后,此时node264会自动下载ks的kernel开始自动安。
1.4 开始复制文件后,需要将nkstar1上的AC10011A文件内容复员,否则每次node264重新启动都会把自己再安装一次。
二、安装2.4.23aa2nks3内核、修改lilo、安装gm驱动程序
2.1 以root身份登陆node264,进入目录/home/admin/src/kernels/2.4.23aa2nks3,运行install文件安装新kernel.由于此时node264缺少一些无用的kernel,install最后的lilo命令无法正常完成。应该以root身份清楚/etc/lilo.conf中步存在的kernel选项,重新运行lilo即可。
2.2 重新启动node264使之使用新得到kernel启动。
2.3 以root身份登陆node264,进入目录/home/admin/src/kernels/2.4.23aa2nks3,运行postinstall安装并启动gm驱动。
三、手动更新某些配置
3.1 更新autofs相关配置,root登陆node264,运行
[root@node264]#scp node005:/etc/auto.* /etc/;/etc/init.d/autofs restart
3.2 更新ld.so.conf,root登陆node264,运行
[root@node264]#scp node005:/etc/ld.so.conf /etc/ld.so.conf;ldconfig
3.3 可能还需要更新其他内容,正在查找中。