鸟哥的 Linux 私房菜 -- 架设 Cluster

简易 Cluster 架设

最近更新日期：2003/05/20

近年来因为数值模式模拟的盛行，所以‘平行运算’的架构也就越来越重要了！什么是数值模拟呢？主要就是藉由一些物理理论去开发出来的一些‘计算公式’，而这些计算公式藉由程式语言(例如C、Fortran等等)实际的将他编译成为可执行的程式，最常见的例如中央气象局不是每天都会预报天气吗？这个预报的动作就是利用数值计算去演算出来的。另外，还有空气品质模式模拟，也是经过运算出来的，除此之外，例如天文、物理、水文等等很多方面的工作，都是利用这种数值模拟的运算的喔！不过，这些程式是很大型的！也就是说，他们在运算的时间是很长的，如果使用单颗 CPU 的话，不论这颗 CPU 的频率与效能有多高，还是得要运算个好几个钟头的～如此一来，对于像气象预报这个急需时效性的工作可能就会有所延误啊！不过，如果我将这个运算的工作同时丢给多颗 CPU 呢？也就是让多颗 CPU 同时进行这个程式的运算工作，如此一来，将可以大大的减低时间的损耗了～这就是平行运算的简单说明。在 Linux 平台上面，要达成简单的平行运算，可以透过 MPI 的函式库，例如 MPICH 就是一个很有名的 MPI 软体喔！马上来给他看看平行运算类型的 Cluster 建置吧！

　
原理：
　　：什么是 Cluster 与 Cluster 的优点
　　：Cluster 的主从架构
　　：达成 Cluster 所需要额外功能 ( RSH ) 与软体 ( MPICH )
架设流程：
　　：整体架构
　　：鸟哥的一个实例规范
　　：系统安装 ( Red Hat 9 )
　　：防火墙 ( 含 NAT 主机 ) 与网路设定
　　：NFS 架设规划(相当重要，参考说明)
　　：NIS 架设规划
　　：RSH 设定
　　：安装 Fortran 90 的编译程式 PGI pgf90 ( PS. server version )
　　：安装 MPICH
其他主机相关设定：
　　：X-Window Server/Slave 架构
重点回顾
参考资源

原理：

什么是 Cluster 与 Cluster 的优点

平行运算

Cluster 的主从架构

上面的 Master 与 Slave 指的都是 CPU 喔！

Master 那部机器上面必须要有可以将工作分配给各个 node 去工作的函式库，也就是 MPI ，他最重要的功能就是将工作给他分配下去的啦！而最重要的软体就是：(1)MPICH；(2)编译器(compiler, 例如 Fortran)；

什么是网路功能呢？如果 master 与 slave 是在同一部机器当中，例如双 CPU 的主机板，那么这里就不需要网路功能啦！不过，如果我是使用四台双 CPU 的 PC 呢？呵呵！那么这四部主机就需要以高速网路架构进行连线啦！此外，还需要在这四部主机之间建立可以互通讯息的通讯协定才行，这方面的功能就含有：(1)R Shell, 亦即称为 RSH；(2)NIS，使 Master 与 Slave 具有相同的帐号群组关系；(3)NFS，使读取写入的资料可以在同一个 partition 上面；

Slave 就是单纯的将来自 Master 的任务给他做完就是了！

达成 Cluster 所需要额外功能 ( RSH ) 与软体 ( MPICH )

RSH：

MPICH：

Messages Passing Interface

http://www-unix.mcs.anl.gov/mpi/mpich/

熟悉 Linux 的操作技巧；
熟悉 Linux 基础网路参数设定；
熟悉 Linux 相关的 Server 架设(这方面请参考鸟哥的私房菜架站篇)；
了解 RSH 的相关功能与设定技巧；
了解 MPICH 的设定与相关功能；
熟悉至少一种程式语言。

架设流程

整体架构

Master 主机安装需要：

防火墙的设定(含 NAT 架设)；
RSH
NIS Server
NFS Server
Compiler Install
MPICH Install
其他特殊功能

Slave 主机安装需要：

防火墙的设定
RSH
NIS Client
NFS Client

鸟哥的一个实例规范

Master ：为双 CPU 主机，使用 AMD MP 的 CPU ，并且有一颗 120 GB 的硬碟，此外，由于我的数值模式需要 PGI Fortran ，所以就必须要安装 Server 版的 PGI Fortran 喔！
Slave ：共有三部 Slave ，每一部均为双 CPU 的 AMD MP 的 CPU ，并且有一颗 120 GB 的硬碟；
连接 Master 与 Slave 的为 10/100/1000 的 Switch ，当然，四部主机(1 x master + 3 x slave)都是安装 Intel 的 1GB 网路卡喔！

系统安装( Red Hat 9 )

Partition 方面：

/ : 10 GB
/var : 5 GB
/tmp : 3 GB
Swap : 3 GB ( 因为我每部 Linux 主机上面都有 1.5 GB 的记忆体 )
/disk1: 96 GB

安装时选择的套件：

Administrattion Tools
Development Tools
Editors
Engineering and Scientific
FTP Server
Kernel Development
Network Servers
Server configuration Tools
Sound and vedio
System Tools
Text-based Internet
Windows File servers

防火墙 ( 含 NAT 主机 ) 与网路设定

Network/netmask：192.168.10.0/255.255.255.0
Master：(对外)140.116.xxx.yyy；(对内)192.168.10.30, Gateway 为对外的 Gateway 喔！并且有设定 NAT 啊！
Slave：192.168.10.10, 192.168.10.20, 192.168.10.40 三部，Gateway 为 192.168.10.30

各个主机的主机名称请修改：/etc/sysconfig/network
各个主机的网路卡设定项目请修改：/etc/sysconfig/network-scripts/ifcfg-eth0
各个主机的 DNS 查寻系统请修改：/etc/resolv.conf
各个主机的内部主机名称查寻系统请修改：/etc/hosts，我的 /etc/hosts 如下：

127.0.0.1 localhost localhost.localdomain

192.168.10.10 node1.cluster

192.168.10.20 node2.cluster

192.168.10.30 server.cluster

192.168.10.40 node4.cluster

atd
crond
iptables
keytable
network
random
sshd
syslogd
xinetd

Master：

#!/bin/bash
# This program is for iptables' rules
# VBird 2003/05/02
#
# 0. PATH and modules
PATH=/sbin:/bin:/usr/sbin:/usr/bin
export PATH
modprobe ip_tables
modprobe iptable_nat
modprobe ip_nat_ftp
modprobe ip_nat_irc
modprobe ip_conntrack
modprobe ip_conntrack_ftp
modprobe ip_conntrack_irc
#
# 1. clear the rules and make the policys
iptables -F
iptables -X
iptables -Z
iptables -F -t nat
iptables -X -t nat
iptables -Z -t nat
iptables -P INPUT DROP
iptables -P OUTPUT ACCEPT
iptables -P FORWARD ACCEPT
iptables -t nat -P PREROUTING ACCEPT
iptables -t nat -P POSTROUTING ACCEPT
iptables -t nat -P OUTPUT ACCEPT

#
# 2. NAT services
echo "1" > /proc/sys/net/ipv4/ip_forward
iptables -t nat -A POSTROUTING -s 192.168.10.0/24 -o eth1 -j MASQUERADE
#
# 3. Trust network and conditions
iptables -A INPUT -m state --state ESTABLISHED,RELATED -j ACCEPT
iptables -A INPUT -i lo -j ACCEPT
iptables -A INPUT -m mac --mac-source XX:YY:ZZ:WW:QQ:PP -j ACCEPT
# 上面这一行就是网路卡的卡号啦！

Slave：

NFS 架设规划

未来在安装所有的 Cluster 需要的套件资料时，例如 Compiler 以及 MPICH 等等，都可以安装到 /cluster/server 这个目录底下，以使所有的主机都能够使用同一个 partition 来源的资料喔！

设定程序：

Master：

1. 启动 portmap 并且设定开机启动：
[root @server root]# /etc/rc.d/init.d/portmap start
[root @server root]# chkconfig --level 35 portmap on
　
2. 设定 NFS 分享出去：
[root @server root]# vi /etc/exports
/home 192.168.10.0/24(rw,async,no_root_squash)
/disk1 192.168.10.0/24(rw,async,no_root_squash)
[root @server root]# exportfs -rv
[root @server root]# /etc/rc.d/init.d/nfs start
[root @server root]# chkconfig --level 35 nfs on
　
3. 设定预计的挂载点：
[root @server root]# mkdir -p /cluster/node1
[root @server root]# mkdir -p /cluster/node2
[root @server root]# mkdir -p /cluster/node4
[root @server root]# mkdir -p /cluster/server

Slave：

1. 启动 portmap 并且设定开机启动：
[root @node1 root]# /etc/rc.d/init.d/portmap start
[root @node1 root]# chkconfig --level 35 portmap on
　
2. 设定 NFS 分享出去：
[root @node1 root]# vi /etc/exports
/disk1 192.168.10.0/24(rw,async,no_root_squash)
[root @node1 root]# exportfs -rv
[root @node1 root]# /etc/rc.d/init.d/nfs start
[root @node1 root]# chkconfig --level 35 nfs on
　
3. 设定预计的挂载点：
[root @node1 root]# mkdir -p /cluster/node1
[root @node1 root]# mkdir -p /cluster/node2
[root @node1 root]# mkdir -p /cluster/node4
[root @node1 root]# mkdir -p /cluster/server

挂载程序：

Master：

[root @server root]# mount -t nfs -o bg,intr server.cluster:/disk1 /cluster/server
[root @server root]# mount -t nfs -o bg,intr node1.cluster:/disk1 /cluster/node1
[root @server root]# mount -t nfs -o bg,intr node2.cluster:/disk1 /cluster/node2
[root @server root]# mount -t nfs -o bg,intr node4.cluster:/disk1 /cluster/node4

Slave：

[root @node1 root]# mount -t nfs server.cluster:/home /home
[root @node1 root]# mount -t nfs -o bg,intr server.cluster:/disk1 /cluster/server
[root @node1 root]# mount -t nfs -o bg,intr node1.cluster:/disk1 /cluster/node1
[root @node1 root]# mount -t nfs -o bg,intr node2.cluster:/disk1 /cluster/node2
[root @node1 root]# mount -t nfs -o bg,intr node4.cluster:/disk1 /cluster/node4

NIS 架设规划

Master：

1. 启动 time 与 time-udp 这两个预先要启动的 daemon
[root @server root]# chkconfig --level 35 time on
[root @server root]# chkconfig --level 35 time-upd on
[root @server root]# /etc/rc.d/init.d/xinetd restart
　
2. 建立 NIS 的领域名称 (我这里是设定为 cluster )：
[root @server root]# nisdomainname cluster
[root @server root]# echo "/bin/nisdomainname cluster" >> /etc/rc.d/rc.local
[root @server root]# echo "NISDOMAIN=cluster" >> vi /etc/sysconfig/network
　
3. 建立 NIS 设定档：
[root @server root]# vi /etc/ypserv.conf (在这个档案内增加三行即可)
127.0.0.0/255.255.255.0   : * : * : none
192.168.10.0/255.255.255.0: * : * : none
*                         : * : * : deny
[root @server root]# touch /etc/netgroup
　
4. 启动 NIS：
[root @server root]# /etc/rc.d/init.d/ypserv    start
[root @server root]# /etc/rc.d/init.d/yppasswdd start
[root @server root]# chkconfig --level 35 ypserv on
[root @server root]# chkconfig --level 35 yppasswdd on
　
5. 制作资料库：(每次有更动使用者资讯时，就必须要进行这个步骤！)
[root @server root]# /usr/lib/yp/ypinit -m
[root @server root]# chkconfig --level 35 ypserv on
[root @server root]# chkconfig --level 35 yppasswdd on

Slave：

1. 建立 NIS 的领域名称 (我这里是设定为 cluster )：
[root @node1 root]# nisdomainname cluster
[root @node1 root]# echo "/bin/nisdomainname cluster" >> /etc/rc.d/rc.local
[root @node1 root]# echo "NISDOMAIN=cluster" >> vi /etc/sysconfig/network
　
2. 建立 NIS 查寻的主机名称：
[root @node1 root]# vi /etc/yp.conf
domain cluster
ypserver server.cluster
　
3. 修改密码验证方式：
[root @node1 root]# vi /etc/passwd (在这个档案的最底下新增如下一行)
+::::::
[root @node1 root]# vi /etc/nsswitch.conf
passwd:     files nis nisplus
shadow:     files nis nisplus
group:      files nis nisplus
hosts:      files nis dns
　
4. 启动 NIS：
[root @server root]# /etc/rc.d/init.d/ypbind    start
[root @server root]# chkconfig --level 35 ypbind on

RSH 设定

Slave & Master：

1. 启动 RSH 啰！
[root @node1 root]# chkconfig --level 35 rsh on
[root @node1 root]# /etc/rc.d/init.d/xinetd restart
　
2. 编辑可使用 R command 的主机设定档：
[root @node1 root]# vi /etc/hosts.equiv
server.cluster +

Master：

[root @server root]# vi /home/test/.rhosts
server.cluster
[root @server root]# vi /etc/skel/.rhosts
server.cluster
[root @server root]# chmod 644 /etc/skel/.rhosts

安装 Fortran 90 的编译程式 PGI pgf90 ( PS. server version )

请务必要下载 Server 的版本

http://www.pgroup.com/downloads.htm

1. 建立 pgi fortran 在 /cluster/server/program/pgi 底下：
[root @server root]# cd /usr/local/src
[root @server src]# mkdir pgi-fortran; cd pgi-fortran
[root @server pgi-fortran]# tar -zxvf /root/software/linux86-HPF.tar.gz
[root @server pgi-fortran]# ./install
接下来会有一些问题，请依序回答您的问题喔！
至于授权嘛！请建立吧！
最重要的地方，是在第三个问题，他会问你要安装的目录，请选择
/cluster/server/program/pgi
　
2. 修改个人参数：由于 RSH 不以 root 工作，所以我以使用者 test 来测试：
[root @serer root]# vi /home/test/.bashrc
# 加入这几行关于 PGI 的咚咚：
PGI=/cluster/server/program/pgi
export PGI
PATH=$PGI/linux86/bin:$PATH
　
3. 设定查寻路径：
[root @server root]# vi /etc/man.config
# 加入这一行：
MANPATH /cluster/server/program/pgi/man

记得 pgf90 必须要让所有的 node 都能够读的到，所以一定要安装在 Server 的分享出去的目录当中，我这里的例子就是安装在 /cluster/server/program/gpi 这个目录当中啰！
执行档要能够执行，当然是必须要让目录在 PATH 这个变数底下，而我的 pgf90 是在 /cluster/server/program/pgi/linux86/bin 底下，所以，您的 PATH 必须要含有这个目录才行！

安装 MPICH

http://www-unix.mcs.anl.gov/mpi/mpich/download.html

1. 建立 mpich 在 /cluster/server/program/mpich 底下：
[root @server root]# cd /usr/local/src
[root @server src]# tar -zxvf /root/software/mpich.tar.gz
[root @server src]# cd mpich-1.2.5
[root @server mpich-1.2.5]# ./configure --enable-debug \
> -fc=pgf77 -f90=pgf90 \
> --prefix=/cluster/server/program/mpich
[root @server mpich-1.2.5]# make && make install
　
2. 建立可以利用的主机状态：
[root @server mpich-1.2.5]# cd /cluster/server/program/mpich/share
[root @server share]# vi machines.LINUX
node1.cluster:2
node2.cluster:2
node4.cluster:2
server.cluster:2
# 这个档案当中，格式为 <主机名称>:<主机的 CPU 个数>
　
3. 建立需要的变数：(又是以 test 为准喔！)
[root @server root]# vi /home/test/.bashrc
# 加入这一些资料：
PATH=$PATH:/cluster/server/program/mpich/bin
export PATH
MPI_HOME=/cluster/server/program/mpich
MPI_ARCH=$MPI_HOME/bin/tarch
export MPI_ARCH MPI_HOME
[root @server root]# vi /etc/man.config
# 加入这一行：
MANPATH /cluster/server/program/mpich/man

[test @server test]$ cp -r /cluster/server/program/mpich/examples/ .
[test @server test]$ cd examples
[test @server examples]$ make pi3f90
[test @server examples]$ mpirun -np 8 pi3f90
# 上面那个 -np 后面接的就是使用 CPU 的个数啦！因为我有 8 个 node ，
# 所以当然就以最大的 CPU 个数来测试看看，如果要看到底 CPU 有没有启动的话，
# 可以先登入各个 slave 的主机，然后执行‘ top -d 1 ’来观察 CPU 的使用率，
# 再执行上面这个程式，就能够知道 CPU 有没有运作了！ ^_^

其他主机相关设定：

X-Window Server/Slave 架构

您的主机应该是在 run-level 为三的文字模式底下，也就是没有 X Window 存在’

X Server 的设定：

1. 先备份原先的设定档：
[root @server root]# cd /etc/X11/gdm
[root @server gdm]# mv gdm.conf gdm.conf.bak
　
2. 编辑设定档，只要底下两行即可！
[root @server gdm]# vi gdm.conf
[xdmcp]
Enable=1
　
3. 启动 gdm ：
[root @server gdm]# gdm
[root @server gdm]# netstat -uln
udp 0 0 0.0.0.0:177 0.0.0.0:*
# 如果有出现上面这行就对了！
[root @server gdm]# echo "/usr/bin/gdm" >> /etc/rc.d/rc.local
# 上面这行在设定开机时启动 gdm 啰！

X Client 的设定(在 Linux 上面)：

0. 请务必要在 X Window 当中，进入 X Window 的方式有：
[root @client root]# startx
或
[root @client root]# init 5
　
1. 在 X Window 的画面当中，启用一个 shell ，然后输入：
[root @client root]# xhost + 192.168.10.30
192.168.10.30 being added to access control list
[root @client root]# init 3 (离开 X Window)

2. 在文字介面下输入：
[root @client root]# X -query 192.168.10.30
.....(进入 X Window 啰！)