劉金霞+李晶+欒永明+王慧瑜+趙威+趙苗
摘要:高性能計算是氣象業(yè)務及科研應用的重要的基礎平臺,東北區(qū)域氣象中心高性能計算能力迅速增強,業(yè)務及科研模式多種多樣,用戶越來越多,尤其是業(yè)務氣象模式精度提高以后,對系統(tǒng)資源需求加大。這給高性能計算機管理以及業(yè)務應用管理提出了更高的要求。以向用戶提供更好的計算資源和支撐服務為出發(fā)點,介紹了高性能計算機運行管理、用戶及模式管理的技術手段,有助于減少管理和維護成本,更好的發(fā)揮計算資源的應用效益。
關鍵詞:高性能計算機;系統(tǒng)管理 ;資源;應用;模式
中圖分類號:TP315 文獻標識碼:A 文章編號:1009-3044(2015)30-0186-02
Research on High Performance Computer System Management Technology
LIU Jin-xia1, LI Jing1, LUAN Yong-ming1,WANG Hui-yu,ZHAO Wei1,ZHAO Miao2
(1.Liaoning Provincial Meteorological Information Center, Shenyang 110166,China;2.Liaoning Provincial Meteorological Bureau,Shenyang 110001,China)
Abstract: High performance computing is an important basic platform for meteorological service and scientific research. The high performance computing power of northeast area meteorological center is rapidly enhanced, and the business and scientific research mode is more and more, and the user is more and more, especially in the business meteorological model. This puts forward higher requirements for high performance computer management and business application management. In order to provide better computing resources and support services as a starting point, it introduces the technical methods of high performance computer operation management, users and management. It helps to reduce the cost of management and maintenance.
Key words: high performance computer;system management;resource;applicaton;model
1 概述
高性能計算機是氣象業(yè)務及科研應用的重要的基礎平臺,高性能計算機技術在氣象海量資料處理、科學計算、產品應用等方面發(fā)揮著重要的支撐作用。 東北區(qū)域氣象中心目前擁有IBM Cluster 1600 、IBM IBM Flex System P460 Cluster系統(tǒng),計算能力迅速增強,依托于該高性能計算平臺,東北區(qū)域中尺度數值預報系統(tǒng),臺風模式HWRF、東北區(qū)域空氣質量模式預報系統(tǒng)CMAQ,天氣數值模式預報檢驗等業(yè)務及科研應用順利開展。業(yè)務及科研模式多種多樣,用戶越來越多,尤其是業(yè)務氣象模式精度提高以后,對系統(tǒng)資源需求加大。這給高性能計算機管理以及業(yè)務應用管理提出了更高的要求。高性能計算機系統(tǒng)管理者必須采取一定的技術手段確保系統(tǒng)穩(wěn)定運行,資源有效利用。
2 計算機運行監(jiān)視
高性能計算機采取集群架構,由一組相互獨立的計算機利用高速通信網絡組成一個單一的計算機系統(tǒng),并以單一系統(tǒng)的模式加以管理。集群內包括小型機、服務器、存儲、網絡等設備近百臺,每天到機房檢查硬件報警信息是硬件檢查的常用方法。然而,在例行檢查之后,無法預測硬件下一次報警的時間,也很難保證硬件總是不出故障。通過一些集群管理命令和單機操作系統(tǒng)命令,可以讀取到一些有用的信息,通過分析這些信息判斷出硬盤、內存、cpu等部件以及各個節(jié)點的運行狀態(tài),通過運行監(jiān)視平臺實時展示,在故障時通過文字的顏色和聲音等方式向值班人員報告系統(tǒng)出現的一些異常情況。
3 高性能計算機性能監(jiān)視系統(tǒng)
在IBM Cluster1600高性能計算系統(tǒng)上,采用Ganglia分布式監(jiān)控技術建立了高性能計算機性能監(jiān)視系統(tǒng)[1]。該系統(tǒng)采用B/S架構,實現了對集群和各個計算節(jié)點的CPU利用率、網絡流量、負載的運行情況、內存情況等性能指標的監(jiān)視、統(tǒng)計和圖形顯示等功能。系統(tǒng)管理員通過Web瀏覽器可以實時了解IBM 高性能計算機運行狀況和資源使用情況,還可以通過性能監(jiān)視系統(tǒng)生成的不同時間尺度下各種度量信息的統(tǒng)計圖表,了解集群系統(tǒng)在一特定時間段內的資源使用情況;用戶也可以通過訪問網站的方式清楚地了解各個計算節(jié)點的資源使用情況,該監(jiān)視系統(tǒng)對于指導用戶提交作業(yè)和監(jiān)視作業(yè)運行提供很大幫助。如圖1。
4 資源統(tǒng)計與分析
反映高性能計算機系統(tǒng)運行及資源使用最直觀的標示就是CPU利用率[2]?;诟鞴?jié)點性能監(jiān)視工具sar的結果,
在HPC系統(tǒng)計算節(jié)點獲取單節(jié)點的cpu利用率,在系統(tǒng)管理節(jié)點轉換處理為整個系統(tǒng)的平均cpu利用率,同時生成每天及每月的系統(tǒng)平均cpu利用率。根據需求,可以統(tǒng)計分鐘-小時-天-月不同時段的系統(tǒng)cpu利用率,繪制成曲線圖,很容易看出資源利用高峰時段。
由于用戶提交的作業(yè)較多,還要對用戶的作業(yè)情況進行統(tǒng)計??蓮淖鳂I(yè)管理軟件提取作業(yè)運行的詳細信息 ,包括用戶信息、資源數量、所在隊列、作業(yè)提交、運行、結束的時間等。這對于存在于不同單位的用戶管理是十分重要的,為資源分配和管理提供了重要依據。
用戶的模式程序以及模式運行的數據均存儲在高性能計算機上。存儲資源劃分不同的文件系統(tǒng),用戶及模式信息與模式數據分開存儲,增加數據的安全性。同時,各文件系統(tǒng)采用限額對所有用戶的存儲資源進行統(tǒng)一分配和管理。
通過資源統(tǒng)計結果分析,高性能計算機管理員較全面地了解資源的使用情況,分析結果作為資源分配、回收的重要依據。
5 用戶及作業(yè)管理
用戶從資源申請到開始應用,需要按照規(guī)定經過申請、審核、復核、審批等過程。用戶應對擬在高性能計算機上運算的模式有一定的了解,提出對計算環(huán)境、編譯環(huán)境、計算資源使用量、存儲資源使用量等需求。系統(tǒng)管理員對于不了解模式的用戶暫時分配臨時資源,便于用戶熟悉高性能計算機系統(tǒng)的操作以及對模式部署的規(guī)劃。用戶被分成組,按照一定的規(guī)則為用戶命名。用戶提交的作業(yè)也會根據業(yè)務需求被定義不同的優(yōu)先級,分配到不同優(yōu)先級的隊列中。當低優(yōu)先級的作業(yè)正在運行時,高優(yōu)先級的作業(yè)將會在資源不夠的情況下搶奪低優(yōu)先級作業(yè)的資源,確保高優(yōu)先級的業(yè)務作業(yè)正常進行。
6 模式運行管理
應用SMS(Supervisor Monitor Scheduler)監(jiān)控管理調度系統(tǒng)技術架構,實現對東北區(qū)域數值預報模式——WRF V3.5.1模式的監(jiān)控管理調度。首先按照SMS的技術規(guī)范將WRF V3.5.1模式作業(yè)的運行流程按照功能分成初始化、解碼、插值、變分同化、WRF模式計算、后處理等十余個模塊,其次將每個模塊盡可能的分解成一個個簡單獨立的任務。作業(yè)通過該監(jiān)控管理調度系統(tǒng)自動提交后,通過直觀的圖形化界面詳細監(jiān)視模式的運行過程和運行狀態(tài),并可實現作業(yè)斷點自動重做。這將進一步提高模式業(yè)務運行能力,保證模式運行的時效性和可靠性。
7 結論
要充分利用高性能計算機強大的計算 能力,就必須通過有效的系統(tǒng)管理使其能夠穩(wěn)定的提供服務,建立資源分配、回收的有效機制,不斷挖掘可用的系統(tǒng)資源,合理分配資源。高性能計算機的系統(tǒng)管理復雜,本文結合工作實際,僅從幾個方面進行了相關的研究和實踐,還應不斷總結出理論和經驗,進一步提高高性能計算機系統(tǒng)管理水平。
參考文獻:
[1] 李晶,王恕,劉金霞,等. 東北區(qū)域氣象中心高性能計算機性能監(jiān)視系統(tǒng)[J]. 計算技術與自動化,2013,32(3):187-191.
[2] 沈瑜,李娟,常飚,等. 高性能計算機統(tǒng)一資源管理系統(tǒng)的設計與實現[J].計算技術與自動化,2014,33(1):84.