2007年07月06日 星期五

重新安装计算节点的注意事项

1. 配置tftp
路径在nkstar1的/tftpboot/pxelinux.cfg.
每个计算节点IP地址转换成16进制后对应一个文件,如node371的dhcp分配地址为
172.16.1.117 对应的文件是
AC 10 01 75

cp stage3.boot AC100175
2. 安装计算节点
给要安装的节点reset,这里是node371,就会看到节点从网络启动了安装程序,安装程序开始后,将tftp配置文件复原
cp AC100175.bak AC100175
这样,安装结束以后就不会再次安装了。
3. 安装后的配置
安装新内核:
到/home/admin/src/kernels/2.4.23aa2nks3下面执行脚本install,安装完成后重启计算机。
安装gm驱动,执行/home/admin/src/kernels/2.4.23aa2nks3的脚本postintall
配置autofs,
scp /home/admin/src/kernels/2.4.23aa2nks3/auto.* node371:/etc/
并重启计算节点autofs
/etc/init.d/autofs restart
安装ganglia,
到/home/admin/ganglia-3.0.2/ganglia-3.0.2下面
make install
cp gmond/gmond.init /etc/init.d/gmond
可以从其他节点拷贝一个gmond.conf到/etc/下面,并修改location = "12,19,0"字段

设置ld.so.conf,可以从其他节点拷贝,具体内容如下:
/usr/kerberos/lib
/usr/X11R6/lib
/usr/lib/sane
/usr/lib/qt-3.1/lib
/usr/lib/mysql
/usr/lib/qt2/lib
/opt/xcat/gm/lib
/opt/intel_cc_80/lib
/opt/intel_fc_80/lib
/opt/intel/mkl70/lib/32
/opt/xcat/i686/lib
并执行ldconfig
很多情况下报错误error while loading shared libraries: libgm.so.0就是因为没有将/opt/xcat/gm/lib加入的缘故。

配置LSF或pbs,安装源里面默认已经安装pbs。
若需要LSF,需要将pbs_mom停止
/etc/init.d/pbs_mom stop
并从nkstar1拷贝启动脚本
cp /etc/init.d/lsf node371:/etc/init.d/
然后启动即可
/etc/init.d/lsf start

由 beat 发表于 2007年07月06日 下午08点07分
回复
发表回复









记住我的信息?