宋柏芬,吳顯鳳,孟繁舉
(大慶鉆探工程公司物探一公司研究院 黑龍江 大慶 163357)
IBM集群系統(tǒng)是我院2009年引進的一套高性能地震資料處理運算系統(tǒng),它包括512個計算節(jié)點,24個數(shù)輸入輸出節(jié)點,6個存儲節(jié)點和5個管理節(jié)點。在管理節(jié)點上安裝CGG ,GeoEast等2套應用軟件,擔負著地震資料處理生產(chǎn)任務,經(jīng)過近十年的生產(chǎn)運行,集群系統(tǒng)老化,故障率逐步升高,就GeoEast服務器即dqhm04管理節(jié)點而言,擔負著VSP垂直地震剖面處理系統(tǒng)和地震資料處理系統(tǒng)兩大功能,一旦出現(xiàn)故障勢必影響生產(chǎn)任務的正常運行。
故障現(xiàn)象:安裝Geoeast 軟件的管理節(jié)點dqhm04服務器突然就能啟動了,當試圖進入系統(tǒng)盤管理程序也無法進入,故障現(xiàn)象顯示如圖1所示:
圖1 dqhm04服務器啟動信息
針對上述故障現(xiàn)象,首先,我們查找相關維修資料,并根據(jù)以往的維修經(jīng)驗,初步判斷是該管理節(jié)點的系統(tǒng)盤或者是磁盤控制器壞了,我們采取由淺入深的辦法一步一步查找,先是把dqhm04節(jié)點的系統(tǒng)盤,安裝在原來的用于HP XP2400磁盤子系統(tǒng)管理的域名服務器dqfm02上,系統(tǒng)能夠正常啟動,判斷不是系統(tǒng)盤本身的原因;這時又把dqfm02上的系統(tǒng)盤放到dqhm04上,系統(tǒng)仍然出現(xiàn)上圖所示的故障現(xiàn)象,此時我們可以很肯定的判斷是磁盤控制器故障了,打開機箱發(fā)現(xiàn)磁盤控制器是集成在主板上的,因此無法單獨更換磁盤控制器,只能把dqhm04節(jié)點的系統(tǒng)磁盤移到dqfm02節(jié)點上,因為我們知道GeoEast軟件是安裝在sdb1上,即外置盤上,所以必須把dqhm04節(jié)點的外置盤也移到dqfm02節(jié)點上,不用重新構建RAID1(內(nèi)置盤是RAID1)和RAID5(外置盤是RAID5)讓磁盤控制器自動識別磁盤[1,2]。
磁盤配置完成后,重新開啟。這時系統(tǒng)啟動很慢,因為要重新配置硬件,系統(tǒng)自動配置硬件完成后,發(fā)現(xiàn)此時的dqfm02節(jié)點和所有網(wǎng)段任何網(wǎng)都是不通的,而且dqfm02節(jié)點是HP XP2400磁盤管理的域名服務器,只配置一個168的存儲網(wǎng)段,并且這個存儲網(wǎng)還是用eth1和eth2綁定的,而dqhm04系統(tǒng)里定義了三個網(wǎng)段155(管理網(wǎng)段eth0),153(計算網(wǎng)段eth1),159(外網(wǎng)eth2),并且這三個網(wǎng)段在交換機上有屬于不同的VLAN(交換機上的虛擬地址池),我們不能簡單把dqfm02網(wǎng)口定義三個地址,我們查看其它管理節(jié)點的網(wǎng)絡地址確保這三個網(wǎng)口必須和其他管理節(jié)點的網(wǎng)口網(wǎng)絡地址定義的規(guī)律相同,只有這樣才能保證不同的網(wǎng)段屬于不同的VLAN,而且還能實現(xiàn)和系統(tǒng)其他節(jié)點相通,具體定義如下:
vi /etc/sysconfig/network-script/ifcfg-eth0
DEVICE=eth0
ONBOOT=yes
TYPE=Ethernet
NETMASK=255.255.0.0
IPADDR=155.10.100.204
USERCTL=no
IPV6INIT=no
vi /etc/sysconfig/network-script/ifcfg-eth1
DEVICE=eth1
BOOTPROTO=none
TYPE=Ethernet
ONBOOT=yes
IPADDR=153.10.100.4
NETMASK=255.255.0.0
USERCTL=no
IPV6INIT=no
vi /etc/sysconfig/network-script/ifcfg-eth2
DEVICE=eth2
ONBOOT=yes
TYPE=Ethernet
ONBOOT=yes
IPADDR=153.10.100.4
NETMASK=255.255.0.0
USERCTL=no
IPV6INIT=no
配置完網(wǎng)口之后,繼續(xù)配置網(wǎng)關,具體操作如下:
vi /etc/yp.conf
domain dq2nis server dqhm01
所有網(wǎng)絡配置完成后,重啟機器。當啟動正常后我們用如下的命令查看網(wǎng)絡進程是否正常。
# service network status
#serviceypbind status
當這些進程都起來后,此時已經(jīng)完成對該服務器系統(tǒng)的恢復[3]。
根據(jù)實際生產(chǎn)的需要對GeoEast軟件的有關用戶進行遷移配置。具體操作步驟如下:
GeoEast軟件原來配置在IBM集群高機柜計算節(jié)點上,VSP和CGG處理軟件作業(yè)經(jīng)常同時應用這些計算節(jié)點,這樣同一個計算節(jié)點既有VSP又有CGG處理作業(yè),經(jīng)常多個作業(yè)疊加,節(jié)點負荷過重,導致作業(yè)運行很慢,經(jīng)過權衡考慮分析。考慮到IBM集群矮機柜工作量相對較少,在矮機柜上增加了10個計算節(jié)點,把VSP這部分作業(yè)從高機柜分離出來,讓VSP用戶的作業(yè)在矮機柜上運行,既解決工作量的平衡,又方便了用戶,也不會使作業(yè)運行的很慢[4]。
系統(tǒng)配置完成后,經(jīng)與GeoEast軟件開發(fā)商溝通后,又重新申請了10個節(jié)點的許可,交付處理用戶使用,當用戶啟動GeoEast軟件時,出現(xiàn)如下信息:
[geoeast@l4b2n05~]$geoeast &
[1] 22803
[geoeast@l4b2n05~]$
The expiration date of GSPS’s license is
GeoComAgent is ready!
153.99.0.4
153.99.0.5
Please wait for opening projects ...
Openpeojects OK!(time: 48ms)
從啟動信息看并沒有看到任何錯誤,當點開View Jobs頁面時,如圖2所示,相應界面是空的。
打開Work Flow Menu 里的Add New Flow窗口也是空的,如圖3所示。
圖2 瀏覽作業(yè)示意圖
圖3 作業(yè)流程菜單
重啟GeoEast軟件信息,并沒有看到什么故障信息,再進一步進行排查,首先檢查GeoEast軟件相關進程,根據(jù)/etc/rc.d/rc.local
dqhm04# more /etc/rc.d/rc.local
export GEOEAST=/gssoft/GEOEAST/geoeast2.5.3
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartOracle
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartGeoCom
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartGJSS
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartTMS
文件定義的相關進程,逐個檢查都是正常的,檢查用戶帳號也沒問題,再檢查用戶所用的數(shù)據(jù)盤也是正常的,經(jīng)過反復查找,當檢查許可證文件時,發(fā)現(xiàn)新加進去的計算節(jié)點沒在里面,問題終于找到了,于是把新增的節(jié)點再都加進去,重新啟動管理節(jié)點和計算節(jié)點,交給處理用戶做作業(yè),這時系統(tǒng)運行正常,啟動作業(yè)流程菜單時如圖4所示[5]:
圖4 作業(yè)流程菜單
為了方便用戶,同時也為解決以前遺留的問題,原來VSP用戶應用GeoEast和CGG用戶軟件時需要兩個環(huán)境變量的帳號,用戶操作過程較為麻煩,于是又進一步對VSP用戶的HOME目錄編譯一個如下所示的腳本文件:
cd /home/vsp***/
vi .shrc
if ( `hostname` == l4b2n12 || `hostname` == l4b2n13 || `hostname` == l4b2n14 ) then
source /cgg/jobmgr/init/gvt_cshrc
else
setenv GEOEAST /gssoft/GEOEAST/geoeast2.5.3
source $GEOEAST/configs/.cshrc
endif
#echo $HOSTNAME
加入這個文件之后,這樣用一個統(tǒng)一的賬號就可以既能應用GeoEast軟件,又能應用CGG軟件,對用戶來說,省去經(jīng)常更換用戶賬號操作的麻煩,大大方便了操作處理過程,同時也提高了生產(chǎn)效率[6,7]。
通過這兩次故障分析和總結,對在系統(tǒng)盤盤控故障以及GeoEast許可證故障的查找和排除積累了一定的經(jīng)驗和基礎,再出現(xiàn)這樣類似的問題時,將會很快找到原因并給與解決,為油田地震資料的處理解釋生產(chǎn)贏得寶貴的時間。針對VSP用戶應用GeoEast軟件和CGG軟件環(huán)境變量的的優(yōu)化,使VSP用戶應用GeoEast地震應用軟件和CGG處理軟件更方便靈活,同時對這兩套軟件有了更深刻的理解,提高處理過程的技術水平,為今后更好地為處理解釋生產(chǎn)的保駕護航打下堅實的基礎,提高了解決與處理實際問題的能力。