秦運龍 許 瑋 張冰松 湖北省氣象信息與技術保障中心
?
華中區(qū)域高性能計算機監(jiān)控管理平臺設計與實現(xiàn)
秦運龍 許 瑋 張冰松 湖北省氣象信息與技術保障中心
【文章摘要】
【關鍵詞】
HPC;監(jiān)控管理;跨平臺管理;AIX;Linux
隨著氣象預報業(yè)務越來越豐富,預報精度越來越高,數(shù)值預報計算量呈現(xiàn)出膨脹式增長。氣象工作對高性能計算資源的需求也變得越來越緊迫。
高性能計算機(High performance computing以下簡稱:HPC)及其附屬配套設施龐大而復雜,對其監(jiān)控和管理是一件繁瑣而復雜的過程,如何實時、全面、準確的在統(tǒng)一的平臺上監(jiān)控和管理不同區(qū)域的HPC,提高監(jiān)控效率,簡化管理方式已成為日常值班亟待解決的問題。高性能計算機監(jiān)控和管理平臺采用先進的顯示與監(jiān)控技術,將所有監(jiān)控和管理任務同一平臺上,可提供跨系統(tǒng)、跨區(qū)域HPC全面、實時、高效、友好的監(jiān)控和管理功能。
目前,隨著快速循環(huán)系統(tǒng)等高頻率高精度業(yè)務模式的運行,模式運算量呈現(xiàn)膨脹式發(fā)展,HPC的建設將不斷增加,高效的監(jiān)控和管理所有HPC系統(tǒng)已成為HPC建設的一個重要任務。
為滿足當前和今后HPC發(fā)展的監(jiān)控和管理需求,建設具有高集成度的HPC監(jiān)控和管理系統(tǒng),應該有下面幾個特點。
(1)系統(tǒng)兼容性。能實現(xiàn)跨系統(tǒng)、跨區(qū)域的監(jiān)控和管理,兼容AΙX、 Linux等操作系統(tǒng),對不同區(qū)域機房的HPC系統(tǒng)均能有效監(jiān)控管理。
(2)監(jiān)控和顯示技術。a.能提供HPC所有硬件和軟件系統(tǒng)的實時狀態(tài)報警;b.能提供所有業(yè)務作業(yè)的運行狀態(tài)監(jiān)視;c.以曲線圖方式實時顯示計算資源使用情況。
(3) 管理技術。提供Windows系統(tǒng)管理平臺,可直接通過平臺對HPC發(fā)出管理查詢指令。并返回執(zhí)行結果,操作方式直接、簡單。
“高性能計算機系統(tǒng)監(jiān)控管理平臺”由5個模塊組成,主要包括ΙBM曙光HPC實時信息采集模塊;信息解碼模塊;數(shù)據庫存儲模塊;信息統(tǒng)一監(jiān)控平臺;ΙBM曙光HPC命令執(zhí)行模塊。
圖1 監(jiān)控管理平臺數(shù)據流程圖
(1) ΙBM曙光HPC實時信息采集模塊
ΙBMHPC實時信息采集模塊由一套基于AΙX和Linux系統(tǒng)設計的Shell腳本組成,包括對關鍵節(jié)點狀態(tài)、所有節(jié)點性能狀態(tài)、作業(yè)提交及運行狀態(tài)、根卷組一致性狀態(tài)、磁盤陣列狀態(tài)、等主要內容運行狀態(tài)信息的采集。
(2)信息解碼模塊
信息解碼模塊主要由Windows下C# 程序設計的解碼入庫軟件解碼入庫,實現(xiàn)對所有獲取的監(jiān)控信息進行解碼,并存儲到數(shù)據庫中。
(3)數(shù)據庫存儲模塊
數(shù)據庫存儲模塊采用SQL Server2008 R2關系數(shù)據庫存儲,數(shù)據庫設計采用不同監(jiān)控系統(tǒng)信息分開存儲分開管理,并且實現(xiàn)數(shù)據庫自動維護,以提高數(shù)據庫監(jiān)控性能需求。
(4)信息統(tǒng)一監(jiān)控平臺
信息統(tǒng)一監(jiān)控平臺采用c#、 PHP等網頁設計語言設計[2],通過實時查詢數(shù)據庫存儲模塊的最新信息,將所有監(jiān)控信息直觀的表現(xiàn)在平臺主頁上,并標注信息采集時間。監(jiān)控項紅色為異常,綠色為正常。
(5)ΙBM曙光HPC命令執(zhí)行模塊
HPC命令執(zhí)行模塊采用c#語言基于Windows平臺開發(fā),可實現(xiàn)在Windows平臺上對AΙX、 Linux系統(tǒng)發(fā)出指令執(zhí)行,并返回結果。
“高性能計算機系統(tǒng)監(jiān)控管理平臺”采用LΙNUX、 AΙX系統(tǒng)下的Shell腳本集采集系統(tǒng)信息,通過信息解碼程序對狀態(tài)信息進行解碼入庫存儲。系統(tǒng)客戶端通過監(jiān)控與操作管理平臺實時讀取數(shù)據庫狀態(tài)信息,并可通過客戶端界面向ΙBM和曙光HPC發(fā)送常命令,并執(zhí)行。見圖1。
4.1高性能計算機監(jiān)控平臺
高性能計算機監(jiān)控平臺主要由shell腳本集、信息解碼、數(shù)據庫、監(jiān)控顯示平臺四個模塊組成。見圖2。
(1) shell腳本集
shell腳本集部署在AΙX系統(tǒng)和Linux系統(tǒng)上分別獲取ΙBM和曙光HPC系統(tǒng)和作業(yè)狀態(tài)。
(2)信息解碼模塊
信息解碼模塊部署在Windows系統(tǒng)上實時解析獲取的HPC系統(tǒng)和作業(yè)狀態(tài)信息,解析重要信息并存儲入庫。
(3)監(jiān)控顯示平臺
監(jiān)控顯示平臺采用B/S結構設計網頁平臺,通過每10分鐘刷新獲取數(shù)據庫狀態(tài)信息,可查詢作業(yè)運行狀態(tài),故障錯誤詳情。
4.2高性能計算機管理平臺
高性能計算機管理平臺采用C/S模式開發(fā)[3][4],基于Routrek.granados模塊實現(xiàn)Windows系統(tǒng)下對AΙX和Linux發(fā)送指令執(zhí)行并返回執(zhí)行結果。見圖3。
部分實現(xiàn)代碼如下:
圖2 高性能計算機監(jiān)控平臺
圖3 高性能計算機管理平臺
4.3數(shù)據庫設計
數(shù)據庫用于存儲所有運行狀態(tài)信息[5],為監(jiān)控平臺實時顯示和歷史查詢提供給信息數(shù)據。數(shù)據庫采用Sql2008r2設計,主要包括如下八個數(shù)據表。見表1。
表1 數(shù)據庫設計
本文提供的監(jiān)控管理平臺系統(tǒng),采用跨區(qū)域、跨系統(tǒng)的方式具有極強的兼容性、實時性和可靠性,在業(yè)務值班中極大的降低了值班員的工作量,提升了工作效率,具有一定的可推廣性。但該系統(tǒng)對作業(yè)運行中發(fā)生的死鎖及異常掛起不能提供準確的原因,這也是用戶比較關心的問題,因此后期在這一部分還需進一步完善。
【參考文獻】
[1] 秦運龍,楊代才,龔賢創(chuàng),馬啟明.地面智能觀測顯示與監(jiān)控綜合處理系統(tǒng)[J].氣象科技,2014,42(3)
[2] 衛(wèi)建國,張曉煜等.基于GIS的寧夏干旱監(jiān)測預警系統(tǒng)設計與應用[J].氣象科技,2011,39(5):635-640
[3]李永利,康利,王英等.內蒙古氣象信息網絡傳輸業(yè)務實時監(jiān)控系統(tǒng)[J].內蒙古氣象,2001,(3):25-27
[4]趙福祥.山東省氣象通信網絡業(yè)務運行及監(jiān)控系統(tǒng)[J],山東氣象,2005,25(4):30-33
[5]秦運龍,邢麗平,楊代才等.基于linux平臺省級上行數(shù)據補傳系統(tǒng)的設計與實現(xiàn).湖北氣象局,2015,24(1)
基金項目:湖北省氣象局青年科技專項基金“高性能計算機系統(tǒng)監(jiān)控管理平臺研制”項目資助
隨著氣象數(shù)值模式預報精度越來精細化,其對高性能計算資源依賴程度也越來越高,因此研發(fā)一套高性能計算機系統(tǒng)監(jiān)控管理平臺,不僅是當前業(yè)務值班人員的迫切需求,更是保障氣象預報業(yè)務模式安全穩(wěn)定運行的重要手段。本文提出并實現(xiàn)了華中區(qū)域高性能計算機監(jiān)控管理平臺,該平臺系統(tǒng)采用AIX、Linux的shell設計,基于Routrek.granados模塊進行操作指令傳遞,通過直觀、形象、智能的方式對所有高性能計算機系統(tǒng)及作業(yè)進行監(jiān)控和管理。在高性能業(yè)務值班中極大的提高了值班的工作效率,降低了值班員的工作量。
作者簡介:秦運龍,男,1984年生,工程師,主要從事氣象信息保障研究