摘要:介紹了遼寧省氣象信息網(wǎng)絡(luò)系統(tǒng)關(guān)鍵服務(wù)器及高性能計(jì)算機(jī)的應(yīng)用,簡要分析了對計(jì)算機(jī)設(shè)備運(yùn)行管理中的問題,提出了B/S架構(gòu)的基于PHP+Mysql的計(jì)算機(jī)運(yùn)行監(jiān)控方法,建立了集實(shí)時(shí)監(jiān)測、自動(dòng)刷新、實(shí)時(shí)告警、提供信息幫助等多種功能為一體的綜合顯示平臺,實(shí)現(xiàn)了不同操作系統(tǒng)平臺的運(yùn)行狀態(tài)集中監(jiān)視。該平臺的應(yīng)用,能夠及時(shí)發(fā)現(xiàn)系統(tǒng)隱患,縮短故障處理時(shí)間,完善了氣象信息網(wǎng)絡(luò)計(jì)算機(jī)運(yùn)行監(jiān)視手段,從而保證氣象信息傳輸及數(shù)值預(yù)報(bào)業(yè)務(wù)平臺的穩(wěn)定運(yùn)行。
關(guān)鍵詞:集中監(jiān)視;實(shí)時(shí);自動(dòng)
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)14-3788-02
Design and Implementation of Computer Running Status Centralized-Monitor System
LIU Jin-xia
(Liaoning Province Meteorological Information and Technological Support Center,Shenyang 10016,China)
Abstract: Introduced the application of crucial server and high performance computer in Liaoning Province meteorological information network,analyzed problems about computer running administration briefly, give a method of computer running status monitor. It is B/S system structure and based on PHP+Mysql implement technology. It established one platform who can monitor actually、refresh automatically, alarm actually,provide help information and other function, realized different operation system platform.Running Status Centralized Monitor. The platform's application, can discover hidden trouble without delay,shorten recovery processing time,and improved computer running monitor means in meteorological information network. Thus, it can ensure stable running of meteorological information transmission and numerical forecast business.
Key words: centralized-monitor; actually; automatically
1 引言
計(jì)算機(jī)技術(shù)的發(fā)展和越來越廣泛的應(yīng)用在給我們帶來方便和效率的同時(shí),也使得應(yīng)用系統(tǒng)對于計(jì)算機(jī)技術(shù)的依賴程度越來越高。隨著氣象業(yè)務(wù)技術(shù)體制改革的逐步深入及多軌道業(yè)務(wù)的發(fā)展,要求保障體系不斷的完善,并系統(tǒng)化。氣象業(yè)務(wù)應(yīng)用所依賴的硬件平臺的運(yùn)行監(jiān)控是提高氣象現(xiàn)代化監(jiān)測水平和運(yùn)行質(zhì)量的重要手段之一。遼寧省氣象信息網(wǎng)絡(luò)系統(tǒng)中的關(guān)鍵服務(wù)器9210通信節(jié)點(diǎn)機(jī)主要承擔(dān)著各類實(shí)時(shí)氣象資料,包括氣象電報(bào)、傳真圖、氣候資料、衛(wèi)星云圖、雷達(dá)拼圖、數(shù)值預(yù)報(bào)產(chǎn)品、氣候模式、鄉(xiāng)鎮(zhèn)預(yù)報(bào)、酸雨、大氣成分、生態(tài)、決策服務(wù)信息等的數(shù)據(jù)傳輸及存儲任務(wù)。寬帶網(wǎng)服務(wù)器主要承擔(dān)雷達(dá)產(chǎn)品和基數(shù)據(jù)的傳輸任務(wù)。高性能計(jì)算機(jī)主要用于氣象氣候模式的業(yè)務(wù)及科研運(yùn)算,為政府、社會和公眾提供精細(xì)氣象預(yù)報(bào)和服務(wù)。高性能計(jì)算機(jī)、通信網(wǎng)服務(wù)器作為數(shù)值預(yù)報(bào)、信息傳輸與存儲的基礎(chǔ)平臺,它的穩(wěn)定性、可靠性也是決定各項(xiàng)應(yīng)用順利完成的重要因素之一。目前,對上述3套設(shè)備的運(yùn)行監(jiān)控主要依賴系統(tǒng)管理員通過人工操作以命令行的方式定時(shí)查看,而且往往是系統(tǒng)出現(xiàn)異常影響到業(yè)務(wù)了,由值班員通知系統(tǒng)管理員來檢查和處理,故障處理工作很被動(dòng),也耽誤時(shí)間,這與氣象業(yè)務(wù)24小時(shí)不能間斷運(yùn)行的要求不適應(yīng)的。如何能夠及時(shí)發(fā)現(xiàn)系統(tǒng)隱患,盡量縮短故障發(fā)現(xiàn)時(shí)間、處理時(shí)間,從而保證各項(xiàng)業(yè)務(wù)順利進(jìn)行?建立計(jì)算機(jī)的運(yùn)行監(jiān)視系統(tǒng)就成為必然。
2 系統(tǒng)設(shè)計(jì)
2.1 監(jiān)視對象及內(nèi)容
監(jiān)視系統(tǒng)的監(jiān)視對象包括神威高性能計(jì)算機(jī)、9210通信節(jié)點(diǎn)機(jī)、寬帶網(wǎng)服務(wù)器。根據(jù)所承擔(dān)的任務(wù)和業(yè)務(wù)需要,確定監(jiān)視內(nèi)容。雖然各計(jì)算機(jī)在同一個(gè)局域網(wǎng)內(nèi),但各自的操作系統(tǒng)不同,服務(wù)對象不同,需要監(jiān)視的內(nèi)容不同。因此,首先要確定監(jiān)視內(nèi)容。
9210通信節(jié)點(diǎn)機(jī)和寬帶網(wǎng)服務(wù)器均是以兩臺服務(wù)器為硬件平臺,并采用雙機(jī)熱備份系統(tǒng),實(shí)時(shí)業(yè)務(wù)會在系統(tǒng)出現(xiàn)異常時(shí)于很短的時(shí)間內(nèi)自動(dòng)切換到備份機(jī)器上,用戶可能會察覺不到。因此,對它們的監(jiān)視首先要確定業(yè)務(wù)系統(tǒng)運(yùn)行在哪臺機(jī)器上,顯示其主機(jī)名,并對該機(jī)的運(yùn)行狀況進(jìn)行監(jiān)視。除此之外,監(jiān)視內(nèi)容還包括文件系統(tǒng)是否超限、FTP訪問連接數(shù)、網(wǎng)絡(luò)連接狀態(tài)等。
神威高性能計(jì)算機(jī)共有24個(gè)計(jì)算節(jié)點(diǎn),2個(gè)I/O節(jié)點(diǎn),主要用于氣象數(shù)值預(yù)報(bào)業(yè)務(wù)及科研工作,如中尺度數(shù)值預(yù)報(bào)、區(qū)域氣候模式等。因此,監(jiān)視節(jié)點(diǎn)狀態(tài)、關(guān)鍵進(jìn)程狀態(tài)、當(dāng)前用戶情況、文件系統(tǒng)情況、隊(duì)列信息、作業(yè)信息、環(huán)境監(jiān)控等是必要的。
2.2 設(shè)計(jì)原則
由于各監(jiān)視對象主要服務(wù)于信息傳輸、資料存儲、數(shù)值預(yù)報(bào)等,因此系統(tǒng)的設(shè)計(jì)開發(fā)遵循以下主要原則。
1) 實(shí)時(shí)性。各監(jiān)視對象均是服務(wù)于每天24小時(shí)不間斷的實(shí)時(shí)性業(yè)務(wù),因此,對其監(jiān)控也應(yīng)保證實(shí)時(shí)性。
2) 相對獨(dú)立性。由于各系統(tǒng)涵蓋不同業(yè)務(wù)范圍,系統(tǒng)的各功能模塊應(yīng)保持相對獨(dú)立,彼此互不影響。
3) 簡便易操作性。應(yīng)動(dòng)態(tài)自動(dòng)刷新,盡量減少人工操作。有異常警告時(shí),提供操作提示。
4) 直觀。監(jiān)視界面應(yīng)能直觀反映系統(tǒng)的運(yùn)行狀態(tài),有異常時(shí)通過特殊顏色或聲音的提示可以達(dá)到告警的目的。
2.3 主要功能模塊的設(shè)計(jì)
整體數(shù)據(jù)流程:被監(jiān)視對象平臺上運(yùn)行信息采集程序按一定格式自動(dòng)生成狀態(tài)信息文件,通過FTP傳輸?shù)綌?shù)據(jù)庫服務(wù)器,存入相應(yīng)的數(shù)據(jù)庫。Web服務(wù)器負(fù)責(zé)從數(shù)據(jù)庫中調(diào)取狀態(tài)信息,以Web方式提供給用戶。系統(tǒng)總體設(shè)計(jì)如圖1。
主要功能模塊如下:
信息采集模塊設(shè)計(jì):針對高性能計(jì)算機(jī)及通信服務(wù)器系統(tǒng)經(jīng)常出現(xiàn)的故障和不易發(fā)現(xiàn)的隱患,確定系統(tǒng)監(jiān)視需求。為了及時(shí)獲取各平臺運(yùn)行狀態(tài)信息,各平臺按一定格式生成運(yùn)行狀態(tài)信息文件。在高性能計(jì)算機(jī)、9210通信服務(wù)器、寬帶網(wǎng)服務(wù)器上分別利用系統(tǒng)定時(shí)作業(yè)crontab完成運(yùn)行狀態(tài)信息的采集程序的運(yùn)行。采集程序通過shell腳本來完成。
通知公告:有重要事件或通知時(shí),用不同顏色以滾動(dòng)方式進(jìn)行顯示。可把公告信息寫入文件中,通過讀取文件內(nèi)容,滾動(dòng)顯示。
操作提示:根據(jù)可能出現(xiàn)的異常情況,在出現(xiàn)報(bào)警時(shí)通過鏈接提供可能的原因及處理方法提示,為故障排除爭取時(shí)間。
Web監(jiān)控界面:根據(jù)業(yè)務(wù)需要,設(shè)定刷新間隔時(shí)間,重新調(diào)取運(yùn)行狀態(tài)信息。不需人工干預(yù),自動(dòng)刷新頁面內(nèi)容。設(shè)定刷新間隔時(shí)間為60秒。主要通過PHP完成。
狀態(tài)信息數(shù)據(jù)庫:由3個(gè)子庫構(gòu)成,分別為9210通信節(jié)點(diǎn)機(jī)狀態(tài)信息庫、寬帶網(wǎng)服務(wù)器狀態(tài)信息庫、高性能計(jì)算機(jī)狀態(tài)信息庫。各子庫記錄各自系統(tǒng)的運(yùn)行狀態(tài)信息。
文件系統(tǒng)超限報(bào)警:從數(shù)據(jù)庫中檢索當(dāng)前運(yùn)行狀態(tài)信息,比較預(yù)先設(shè)定的告警閥值,在監(jiān)視界面上通過醒目的顏色顯示異常信息。
進(jìn)程監(jiān)視:從數(shù)據(jù)庫中得到當(dāng)前業(yè)務(wù)進(jìn)程狀態(tài),異常時(shí)以紅色及文字提醒。
FTP連接數(shù):FTP連接數(shù)達(dá)到一定數(shù)值時(shí),紅色報(bào)警并顯示連接數(shù),提醒業(yè)務(wù)人員查看是否是由于病毒等原因造成的非正常訪問。
網(wǎng)絡(luò)連接狀態(tài):主要監(jiān)測到國家氣象局的骨干鏈路的連通情況。
業(yè)務(wù)運(yùn)行節(jié)點(diǎn):顯示當(dāng)前業(yè)務(wù)應(yīng)用所在設(shè)備的主機(jī)名,用以確定目前是否運(yùn)行在備份主機(jī)上。
計(jì)算節(jié)點(diǎn)狀態(tài):監(jiān)視高性能計(jì)算機(jī)各計(jì)算節(jié)點(diǎn)系統(tǒng)狀態(tài)。
作業(yè)信息:高性能計(jì)算機(jī)的作業(yè)信息。
隊(duì)列信息:高性能計(jì)算機(jī)的隊(duì)列信息。
目錄檢查:監(jiān)視實(shí)時(shí)業(yè)務(wù)中用到的各目錄是否因故丟失,如目錄不存在,則自動(dòng)重建,并在界面上提醒。
3 系統(tǒng)實(shí)現(xiàn)
以目前的技術(shù)看,局域網(wǎng)建立B/S結(jié)構(gòu)的網(wǎng)絡(luò)應(yīng)用,并通過Internet/Intranet模式下數(shù)據(jù)庫應(yīng)用,相對易于把握、成本也是較低的。它是一次性到位的開發(fā),能實(shí)現(xiàn)不同的人員,從不同的地點(diǎn),以不同的接入方式(比如LAN,WAN,Internet/Intranet等)訪問和操作共同的數(shù)據(jù)庫;它能有效地保護(hù)數(shù)據(jù)平臺和管理訪問權(quán)限,服務(wù)器數(shù)據(jù)庫也很安全[1]。PHP是英文Hypertext Preprocessor (超級文本預(yù)處理語言)的縮寫,是一種嵌入在 HTML 并由服務(wù)器解釋的腳本語言。它可以用于管理動(dòng)態(tài)內(nèi)容、支持?jǐn)?shù)據(jù)庫、處理會話跟蹤[2]。它支持許多流行的數(shù)據(jù)庫,包括 MySQL、Oracle、Sybase、Informix 和 Microsoft SQL Server。
監(jiān)控平臺選擇了B/S架構(gòu),以Apache Web服務(wù)器為基礎(chǔ),利用PHP+MYSQL實(shí)現(xiàn)程序設(shè)計(jì),結(jié)合LINUX SHELL腳本,以網(wǎng)頁的方式作為監(jiān)視系統(tǒng)界面并采用動(dòng)態(tài)刷新的直觀方式。監(jiān)控信息的收集主要采用LINUX的shell工具結(jié)合sed等編輯器來實(shí)現(xiàn)。
4 應(yīng)用效果
監(jiān)視系統(tǒng)實(shí)現(xiàn)了不同操作系統(tǒng)平臺的運(yùn)行狀態(tài)集中監(jiān)視,建立了集實(shí)時(shí)監(jiān)測、自動(dòng)刷新、實(shí)時(shí)告警、提供信息幫助等多種功能為一體的綜合顯示平臺。采取邊開發(fā)邊使用的原則,運(yùn)行以來,表現(xiàn)出較好的穩(wěn)定性、實(shí)用性和操作直觀性。該系統(tǒng)有比較完善的監(jiān)控信息顯示功能,既有系統(tǒng)正常運(yùn)行的狀態(tài)顯示,也有系統(tǒng)異常狀態(tài)的顯示,同時(shí)提供異常情況處理方法提示。監(jiān)控畫面能夠反映系統(tǒng)整體運(yùn)行情況,也可以通過子畫面查看被監(jiān)視對象詳細(xì)的運(yùn)行狀況。該系統(tǒng)改變了人工檢查系統(tǒng)運(yùn)行狀態(tài)的被動(dòng)局面,能夠及時(shí)發(fā)現(xiàn)系統(tǒng)隱患,縮短故障處理時(shí)間,減輕值班人員的工作強(qiáng)度和壓力,提高了工作效率,為數(shù)值預(yù)報(bào)、通信業(yè)務(wù)的實(shí)時(shí)穩(wěn)定運(yùn)行提供有力的技術(shù)支撐。
參考文獻(xiàn):
[1] http://zhidao.baidu.com/question/26137272.html.
[2] http://tech.it168.com/zt/PHP/index.html.