張雨馨
[摘 要] 本文介紹了集群系統(tǒng)的概念、特點(diǎn)和分類,介紹了一種集群管理工具xCAT的安裝部署,通過IBM集群系統(tǒng)描述了xCAT工具在硬件管理、軟件監(jiān)控中的應(yīng)用。在使用了xCAT工具后,提高了系統(tǒng)的檢查效率,縮短了維護(hù)時(shí)間,大大提高了工作效率,保證了集群系統(tǒng)的高效、穩(wěn)定運(yùn)行。
[關(guān)鍵詞] 集群系統(tǒng);系統(tǒng)管理;xCAT;IBM集群
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 21. 025
[中圖分類號(hào)] TP393 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2014)21- 0034- 02
1 集群系統(tǒng)介紹
1.1 集群系統(tǒng)基本概念
把多臺(tái)同構(gòu)或異構(gòu)的計(jì)算機(jī)通過網(wǎng)絡(luò)連接起來,用于完成特定的任務(wù)的系統(tǒng)稱為集群系統(tǒng)。集群系統(tǒng)中的計(jì)算機(jī)稱為“節(jié)點(diǎn)”。因此,也可以說,集群系統(tǒng)是通過高性能網(wǎng)絡(luò)所組成的節(jié)點(diǎn)的集合。
1.2 集群系統(tǒng)的特點(diǎn)
(1)集群都是將普通 PC、工作站或服務(wù)器通過某種方式連接起來構(gòu)成的多機(jī)系統(tǒng)。
(2)集群系統(tǒng)都具有良好的可用性。即它們都能夠在集群的某部分資源出故障的情況下繼續(xù)向用戶提供持續(xù)的服務(wù)。幾乎所有的典型集群都擁有災(zāi)難恢復(fù)功能。
(3)集群系統(tǒng)有良好的可擴(kuò)展性。只需很少的配置工作就可以方便地在集群中加入或刪除工作節(jié)點(diǎn)。
(4)典型的集群系統(tǒng)提供了良好的可管理性。管理人員通過簡(jiǎn)單的操作就可以對(duì)集群中的工作節(jié)點(diǎn)或控制節(jié)點(diǎn)進(jìn)行配置工作。
(5)集群系統(tǒng)一般都提供了負(fù)載平衡功能。負(fù)載平衡包括靜態(tài)負(fù)載平衡和動(dòng)態(tài)負(fù)載平衡,為了最大程度地利用集群中的一切資源,集群需要具有動(dòng)態(tài)負(fù)載平衡功能,它能夠通過監(jiān)視集群中的實(shí)際節(jié)點(diǎn)的負(fù)載情況動(dòng)態(tài)地進(jìn)行調(diào)度。
(6)大部分集群系統(tǒng)都有一個(gè)主控機(jī),它能夠?qū)褐械臋C(jī)器的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,而且能夠根據(jù)各機(jī)器的負(fù)載輕重進(jìn)行任務(wù)的調(diào)度。
1.3 集群系統(tǒng)的分類
通常情況下,將集群分為兩大類:高可用集群和高性能集群。
2 xCAT工具介紹
2.1 xCAT 簡(jiǎn)介
xCAT (Extreme Cluster Administration Toolkit)是一個(gè)可伸縮的Linux集群管理和配置工具,xCAT 最先是為IBM xSeries 系列的Linux Cluster做的第三方軟件,但后來它沒有發(fā)展成為一個(gè)產(chǎn)品,而是成為包含一系列有用的腳本的軟件包。使用者可以自己修改,但是不能重新發(fā)布。
2.2 xCAT功能及特性
全自動(dòng)化的安裝:基于網(wǎng)絡(luò)的,無人看管的安裝。遠(yuǎn)程管理和監(jiān)視:遠(yuǎn)程電源管理和遠(yuǎn)程控制系統(tǒng)。軟件管理:并行管理工具和高性能軟件。
xCAT 的特性:硬件管理和監(jiān)控;支持IBM eServer xSerie 系列服務(wù)器遠(yuǎn)程電源控制的高級(jí)系統(tǒng)管理特性;支持遠(yuǎn)程系統(tǒng)狀態(tài)檢測(cè)分析(風(fēng)扇速度,溫度,電壓等);遠(yuǎn)程詳細(xì)檢測(cè)系統(tǒng)狀態(tài)設(shè)備型號(hào)和BIOS 等;硬件事件日志記錄;SNMP 認(rèn)證警報(bào);軟件管理;以及并行的Shell 和其他工具同時(shí)運(yùn)行在xCAT 管理范圍內(nèi)的節(jié)點(diǎn)等。
3 xCAT工具部署安裝
xCAT 可以運(yùn)行其上的系統(tǒng)有Redhat&Fedora Core、SUSE 等Linux 操作系統(tǒng);IA64、PPC64 等硬件架構(gòu)。安 裝 xCAT 需要下載如下文件包: xcat-dist-core-x.x.x.tgz,xcat-dist-ibm-x.x.x.tgz, xcat-dist-doc-x.x.x.tgz 和xcat-dist-oss.x.x.x.tgz。
默認(rèn)方式下xCAT的安裝目錄為/opt,用下列命令依次安裝:
tar zxvf xcat-dist-core-x.x.x.tgz-C /opt
tar zxvf xcat-dist-ibm-x.x.x.tgz-C /opt
tar zxvf xcat-dist-doc-x.x.x.tgz-C /opt
tar zxvf xcat-dist-oss.x.x.x.tgz -C /opt
安裝前需要做一些準(zhǔn)備,包括設(shè)置環(huán)境變量,準(zhǔn)備啟動(dòng)鏡像,啟動(dòng)NFS服務(wù)器,以及修改$XCATROOT/etc/目錄以下的幾個(gè)文件,包括site.tab,nodelist.tab,notetype.tab, noderes.tab,mac.tab,postscripts.tab,postdeps.tab,nodehm.tab 和passwd.tab。
具體的修改說明如下:
site.tab 文件中注意幾個(gè)要修改的地方,主要用于描述master 節(jié)點(diǎn)的一些必要屬性和網(wǎng)絡(luò)配置情況,包括domain,dnssearch,nameservers,nets,forwarders,dnsallowq,mailhosts,master,homefs,localfs,snmpd,installdir,dynamicr,usernoders,usermaster,nisdomain,nismaster 和subdhcpd。
nodelist.tab 文件中主要定義node 的名字,組和組id。
nodetype.tab 文件中主要定義每個(gè)node 安裝什么體系結(jié)構(gòu)的系統(tǒng)。
noderes.tab 文件用于節(jié)點(diǎn)安裝時(shí)資源的描述。
nodehm.tab 文件用于描述節(jié)點(diǎn)的硬件管理。
隨后用 root 用戶登錄:
[root@master1 ~]# export XCATROOT=/opt/xcat
[root@master1 ~]# cd XCATROOT
[root@master1 ~]# ./setupxcat
創(chuàng)建服務(wù):開啟DNS,獲取MAC 地址,開啟DHCP,配置終端服務(wù)。配置所有節(jié)點(diǎn)(自動(dòng)的或者手工的):升級(jí)硬件,配置硬件/COMS/BIOS使它從來不會(huì)暫停,配置啟動(dòng)順序,開啟處理器控制,如果可以的話,重新定義POST/BIOS 的連續(xù)輸出。最后是集群的安裝:準(zhǔn)備安裝服務(wù)器,準(zhǔn)備自動(dòng)安裝的腳本,設(shè)置節(jié)點(diǎn),重新啟動(dòng)并且開啟無人看管的安裝模式,最終檢查。
4 利用xCAT工具管理集群
利用xCAT工具,系統(tǒng)管理人員可以很好地對(duì)集群系統(tǒng)進(jìn)行管理和維護(hù),其提供的功能主要有以下兩個(gè)方面。
4.1 硬件管理與監(jiān)控
系統(tǒng)管理員可以通過rpower、rreset、rboot 3個(gè)命令對(duì)系統(tǒng)中的節(jié)點(diǎn)進(jìn)行遠(yuǎn)程電源控制。xCAT還提供了遠(yuǎn)程資產(chǎn)管理命令,包括對(duì)服務(wù)器的序列號(hào)、BIOS版本、硬件日志等信息的查詢。
4.2 軟件管理
xCAT提供了Remote Console的命令,分別是rcons和wcons,對(duì)遠(yuǎn)程系統(tǒng)進(jìn)行監(jiān)控,這種監(jiān)控是基于字符界面的。
xCAT還提供了大量的并行管理命令,當(dāng)我們需要對(duì)多個(gè)節(jié)點(diǎn)進(jìn)行相同操作的時(shí)候,就可以領(lǐng)用這些命令來完成,這些命令包括psh、pping、prcp、psync、psysstat等。
5 結(jié) 論
目前,IBM集群系統(tǒng)在生產(chǎn)實(shí)踐當(dāng)中已經(jīng)開始使用,在應(yīng)用了xCAT工具后,提高了系統(tǒng)的檢查效率,縮短了維護(hù)時(shí)間,大大提高了工作效率,保證了集群系統(tǒng)的高效、穩(wěn)定運(yùn)行。
主要參考文獻(xiàn)
[1]楊小虎.集群監(jiān)控中檢測(cè)技術(shù)研究[D].北京:中國(guó)科學(xué)院軟件研究所,2004.