摘 要:隨著國華電力研究院海水淡化、燃煤效能分析等一批自主科研項目的深入開展,普通計算終端已經(jīng)無法滿足專業(yè)設(shè)計與仿真軟件的配置要求。為滿足技術(shù)人員對高速計算的需求,研究院建設(shè)高性能計算中心。本文就計算中心的網(wǎng)絡(luò)架構(gòu)、高性能計算集群的配置、作業(yè)調(diào)度與集群管理系統(tǒng),信息安全管控措施與機制,以及最終的平臺性能測試情況進行介紹。該中心已經(jīng)成為企業(yè)技術(shù)研發(fā)的基礎(chǔ)平臺,有效提高企業(yè)自主設(shè)計、自主創(chuàng)新能力,實現(xiàn)了知識產(chǎn)權(quán)的保護與核心技術(shù)的保密。
關(guān)鍵詞:高性能計算;集群;并行計算、網(wǎng)格計算、計算中心
中圖分類號:TP393
隨著信息技術(shù)在科學(xué)領(lǐng)域的不斷發(fā)展發(fā)展,高性能計算已經(jīng)成為理論科學(xué)和實驗科學(xué)以后科技創(chuàng)新的主要工具[1],也成為科技研發(fā)能力新的競爭點[2].90年代后期以來,一些傳統(tǒng)行業(yè)和高性能計算結(jié)合的交叉學(xué)科不斷涌現(xiàn)。在能源領(lǐng)域,隨著技術(shù)水平和技術(shù)難度的不斷提高,工程設(shè)計和設(shè)備制造對于計算機性能的要求越來越高。在電力行業(yè),高性能計算已經(jīng)被應(yīng)用于電力系統(tǒng)的潮流計算、短路計算、穩(wěn)定計算[3],以及大電網(wǎng)系統(tǒng)的可靠性評估[4]。高性能計算通過將多臺機器連接起來同時處理復(fù)雜的計算問題,是一種并行計算(ParallelProcessing)集群的實現(xiàn)方法,平臺主要功能是利用所有的計算資源同時運行在并行環(huán)境下開發(fā)的并行應(yīng)用程序,以解決單個計算機系統(tǒng)不能解決的問題(如問題規(guī)模大、單機運行速度慢)[5]。運行在高性能的軟件需要支持并行計算機制,大量應(yīng)用的有CAE(ComputerAidedEngineering)工程仿真分析軟件、CFD(ComputationalFluidDynamics)流體力學(xué)計算軟件等[6]。高性能計算中心建設(shè)是構(gòu)建高性能計算能力的系統(tǒng)工程,要從業(yè)務(wù)需求出發(fā),考慮軟件、硬件的合理投入與綜合管理。
1 工作背景
神華國華(北京)電力研究院(以下簡稱“研究院”)作為技術(shù)支持與服務(wù)單位,承擔(dān)了國華電力技術(shù)研究職能。近年,研究院自主設(shè)計、自主研發(fā)和自主創(chuàng)新的力度不斷加大,科研工作復(fù)雜度進一步提高。一方面,熱機、電控、化學(xué)、土建、脫硫、脫硝等發(fā)電專業(yè)性研究都對高速計算提出了新的要求。例如在海水淡化產(chǎn)業(yè)化及大型化研究中,低溫多效海水淡化技術(shù)熱力計算軟件、蒸汽壓縮噴射器模擬計算程序的自主研發(fā)和應(yīng)用,是海水淡化工藝流程和主要設(shè)備選型的重要依據(jù)。其計算過程比較復(fù)雜,需借助大型商業(yè)CFD流體力學(xué)計算軟件來完成,且多采用劃分計算單元的方法進行迭代計算,計算量是普通終端計算機難于負(fù)擔(dān)的。另一方面,自主開發(fā)的計算軟件集成了研究院多年來的關(guān)鍵技術(shù),花費了巨大的財力和人力。核心技術(shù)的保密工作以及知識產(chǎn)權(quán)的保護工作一直以來都十分受到重視。這就需要一個統(tǒng)一的技術(shù)平臺,實現(xiàn)集中式管理。為此,研究院組織建設(shè)高性能計算中心,作為技術(shù)研發(fā)的基礎(chǔ)技術(shù)平臺,助力企業(yè)創(chuàng)新發(fā)展。
2 整體網(wǎng)絡(luò)架構(gòu)
高性能計算中心采用集群技術(shù)實現(xiàn)并行計算,其建設(shè)思路是“按需配置、逐步擴展”,即根據(jù)業(yè)務(wù)實際需要構(gòu)建計算能力,預(yù)留充分的擴展空間,減少初期投入,避免資源浪費。它的整體架構(gòu)由網(wǎng)絡(luò)系統(tǒng)、服務(wù)器集群及計算系統(tǒng)、存儲備份系統(tǒng)、計算中心內(nèi)用戶管理系統(tǒng)、機房配套系統(tǒng)五部分組成。
網(wǎng)絡(luò)系統(tǒng)是計算中心的骨架,是業(yè)務(wù)人員訪問數(shù)據(jù)資源的基礎(chǔ)平臺,為了保證網(wǎng)絡(luò)數(shù)據(jù)安全,防范一些惡意攻擊、人為破壞或者非法操作,將部署嚴(yán)密的安全方案,保證計算中心的數(shù)據(jù)安全。服務(wù)器集群系統(tǒng):部署在研究院高性能計算中心機房,實現(xiàn)計算資源和并行計算軟件的配置與管理,提供硬件監(jiān)控與管理功能,為各業(yè)務(wù)部門提供高性能、高質(zhì)量的計算服務(wù)。存儲備份系統(tǒng):分為存儲和備份兩個部分,其中存儲系統(tǒng)為服務(wù)器集群系統(tǒng)提供共享數(shù)據(jù)存儲空間,并提供高可用和高可靠性的存儲環(huán)境,保證存儲系統(tǒng)的數(shù)據(jù)安全;備份系統(tǒng)負(fù)責(zé)將業(yè)務(wù)系統(tǒng)的重要數(shù)據(jù)定期的備份到磁帶中,當(dāng)業(yè)務(wù)系統(tǒng)需要恢復(fù)數(shù)據(jù)時,可以通過備份系統(tǒng)自動恢復(fù),減少由于數(shù)據(jù)丟失給用戶帶來的損失。計算中心內(nèi)用戶管理系統(tǒng):計算中心內(nèi)部用戶僅允許訪問計算中心內(nèi)部授權(quán)使用的資源,不允許訪問計算中心以外的任何資源。為了保證內(nèi)部資源和數(shù)據(jù)的安全,需要提供良好的安全策略配置,保證用戶接入的安全。機房配套系統(tǒng):機房配套系統(tǒng)主要包括兩部分的功能,一是設(shè)置UPS電源保護;二是用于數(shù)據(jù)展示的投影和顯示設(shè)備。
3 高性能計算集群
高性能計算服務(wù)器集群系統(tǒng)是高性能計算和高可用技術(shù)有機結(jié)合的性能強大、高可用的集群系統(tǒng)[7],是整個高性能計算平臺的核心。按照業(yè)務(wù)實際需要,研究院高性能計算集群配置刀片服務(wù)器作為計算節(jié)點;配置高性能服務(wù)器節(jié)點作為I/O節(jié)點,配置高性能服務(wù)器同時復(fù)用為登錄節(jié)點和集群管理節(jié)點,負(fù)責(zé)整個集群系統(tǒng)的軟、硬件管理、維護與監(jiān)控。所有節(jié)點服務(wù)器通過InfiniBand網(wǎng)絡(luò)連接,使得這些節(jié)點可以高速訪問。
Cluster1是并行計算節(jié)點,它提供核心計算能力,即各種系統(tǒng)資源,包含處理器、內(nèi)存及I/O設(shè)備。Cluster1一方面連接到登陸/管理節(jié)點,接收執(zhí)行指令,一方面通過Infiniband交換機,實現(xiàn)進程之間高速消息通信;同時訪問I/O節(jié)點上的文件系統(tǒng),從而獲得較好的I/O性能。I/O節(jié)點為計算節(jié)點提供共享文件系統(tǒng)、數(shù)據(jù)傳送等功能[8]。與I/O系統(tǒng)相關(guān)的網(wǎng)絡(luò)包括三部分:一是共享文件系統(tǒng)控制支撐網(wǎng)絡(luò),在I/O節(jié)點上建立網(wǎng)絡(luò)文件系統(tǒng)(NFS),作為服務(wù)器共享存儲,實現(xiàn)統(tǒng)一數(shù)據(jù)訪問。它控制支撐網(wǎng)絡(luò),用來傳遞共享文件系統(tǒng)NFS的控制信息,是支撐計算節(jié)點和I/O節(jié)點間數(shù)據(jù)交換的管理網(wǎng)絡(luò)。當(dāng)多個計算節(jié)點同時訪問某個建立在共享存儲上的共享文件系統(tǒng)時,共享文件系統(tǒng)需要通過該網(wǎng)絡(luò)系統(tǒng)在多個節(jié)點間進行協(xié)調(diào)和管理。共享文件系統(tǒng)控制支撐網(wǎng)絡(luò)傳輸?shù)闹皇切┛刂菩畔?,而非?shù)據(jù)本身,所以網(wǎng)絡(luò)負(fù)載非常小。二是節(jié)點間數(shù)據(jù)傳輸網(wǎng)絡(luò),用來支持計算節(jié)點和I/O節(jié)點間的數(shù)據(jù)傳輸,即通過Infiniband網(wǎng)絡(luò)實現(xiàn)進程之間高速消息通信。三是存儲備份網(wǎng)絡(luò),實現(xiàn)數(shù)據(jù)的轉(zhuǎn)移與備份。本項目中未配置單獨備份,而是在I/O節(jié)點上配置磁盤陣列,通過RAID實現(xiàn)磁盤冗余,在滿足存儲要求的情況下,提高了讀寫效率。登陸/管理節(jié)點完成集群系統(tǒng)的監(jiān)控、管理、登錄、作業(yè)調(diào)度等任務(wù),用戶登錄到這個節(jié)點上編譯源程序,并提交作業(yè)。該節(jié)點上部署的作業(yè)調(diào)度與集群管理系統(tǒng)是管理員與用戶主要使用的應(yīng)用軟件系統(tǒng),將在下一章節(jié)具體介紹。Cluster2是非并行計算資源,包含高性能圖形計算機等,它主要是為了滿足特定計算要求,尤其是對圖形性能要求較高的計算任務(wù),為用戶提供相應(yīng)的計算能力。與并行計算集群分開,更加有利于調(diào)度與管理。Infiniband技術(shù)是一種開放標(biāo)準(zhǔn)的、目前全球帶寬最高的高速網(wǎng)絡(luò)互聯(lián)技術(shù),它的傳輸協(xié)議具有高帶寬、低時延、系統(tǒng)擴展性好的特點,最高理論帶寬可以達到120Gb/s,最小延時不超過4us。另外Infiniband標(biāo)準(zhǔn)支持RDMA(RemoteDirectMemoryAccess),使得在使用Infiniband構(gòu)筑服務(wù)器、存儲器網(wǎng)絡(luò)時比萬兆以太網(wǎng)具有更高的性能、效率和靈活性。
4 作業(yè)調(diào)度與集群管理系統(tǒng)
在并行計算環(huán)境中,為了更充分的利用和安排計算資源,必須要有作業(yè)調(diào)度軟件對用戶發(fā)起的計算請求分配相應(yīng)的計算資源,在接收到來自用戶的資源請求后,分配詳細(xì)的硬件資源給應(yīng)用程序,進行后臺運算,并對多個業(yè)務(wù)進行負(fù)載分擔(dān)和排隊。研究院計算中心作業(yè)調(diào)度與集群管理系統(tǒng)主要由兩部分組成,即內(nèi)核信息基礎(chǔ)架構(gòu)和管理工具集,內(nèi)核信息基礎(chǔ)架構(gòu)處理底層系統(tǒng)配置,實時監(jiān)控系統(tǒng)處理器、內(nèi)存及網(wǎng)絡(luò)流量;管理工具集是一個供備、穩(wěn)定、易管理、可定制、可擴展的集群管理環(huán)境,提供完備的用于高性能計算的應(yīng)用開發(fā)和運行工具、數(shù)學(xué)庫和并行環(huán)境,下面介紹其主要功能。
4.1 快速部署。在大規(guī)模的集群系統(tǒng)中,操作系統(tǒng)和軟件的部署單調(diào)重復(fù),但工作量卻非常大,一直都是令系統(tǒng)管理員十分苦惱的問題。快速部署系統(tǒng)幫助系統(tǒng)管理員快速、簡便地完成節(jié)點的操作系統(tǒng)和軟件的部署。此功能通過基于Web的圖形用戶界面(GUI)可以隨時生成集群節(jié)點(管理/登陸/IO/計算)鏡像,實現(xiàn)節(jié)點系統(tǒng)自動部署和備份恢復(fù)的功能。可以同時保持多個不同或相同鏡像版本,實現(xiàn)多個鏡像的切換。
4.2 系統(tǒng)管理。通過瀏覽器實現(xiàn)現(xiàn)場和遠程的集群管理和使用,包括系統(tǒng)登錄、節(jié)點角色管理、用戶管理(查看/增加/刪除用戶)、文件管理和服務(wù)管理(DNS,NIS,NTP,DHCP,DNS)和并行命令等。
4.3 作業(yè)調(diào)度。作業(yè)調(diào)度的目的是合理、高效地管理系統(tǒng)中的所有軟硬件資源和用戶提交的作業(yè),最大化的提升集群系統(tǒng)的吞吐率和利用率。它需支持任務(wù)間相關(guān)、自動文件傳送(FileStaging)、多個任務(wù)隊列、多種系統(tǒng)分組、多種任務(wù)優(yōu)先級政策和配置、多資源管理和任務(wù)高級預(yù)約、QOS(QualityofService,包括服務(wù)對象和資源,以及功能訪問控制)、可配置的節(jié)點分配政策、多種可配置的回填政策(backfillpolicies)、詳盡的系統(tǒng)診斷(systemdiagnostic)以及各種資源使用情況跟蹤和統(tǒng)計。
4.4 系統(tǒng)監(jiān)控。監(jiān)控模塊能夠輕松快捷的獲取當(dāng)前集群運行狀態(tài)的信息,使管理員方便地進行集群系統(tǒng)的維護和管理。圖形界面與集群中服務(wù)器的擺放位置相同。監(jiān)控信息包括整機的CPU負(fù)載,內(nèi)存用量,網(wǎng)絡(luò)流量,硬盤用量和系統(tǒng)負(fù)載等。
4.5 統(tǒng)計與分析。系統(tǒng)提供資源統(tǒng)計功能,對某個用戶的已執(zhí)行作業(yè)、占用CPU時間等選擇相應(yīng)的日期,即可生成資源使用的報表和圖。
4.6數(shù)據(jù)的前處理和后處理。每一個集群用戶上傳到集群的文件以及該用戶在集群上產(chǎn)生的文件在進行計算前都要進行前處理,包含目錄建立、文件名稱修改和自動備份,該備份只有授權(quán)人員可以處理,未授權(quán)用戶無權(quán)處理。在計算結(jié)束后,對計算結(jié)果進行后處理,即自動備份和分發(fā)。
4.7節(jié)能配置。系統(tǒng)會檢測高性能服務(wù)器中有多少節(jié)點在使用,有多少節(jié)點是空閑的,并實現(xiàn)按需開關(guān)機,即將空閑的節(jié)點自動關(guān)機;當(dāng)正在運行的機器使用得非常飽和,并且有用戶的作業(yè)在隊列里排隊的時候,將已經(jīng)關(guān)機的節(jié)點自動開機。此功能在保證了用戶資源正常使用的情況下,幫助用戶自動、合理的選擇開機的數(shù)目,降低用戶的使用成本,實現(xiàn)節(jié)能。
5 信息安全管控
研究院計算中心的網(wǎng)絡(luò)安全設(shè)計上將采用“從外向內(nèi)+從內(nèi)向外”的立體架構(gòu)。保證整個計算中心資源的安全性。從外向內(nèi),進行訪問控制,主要措施有四:一是Vlan隔離,即在交換機上設(shè)置不同的Vlan,計算集群、管理節(jié)點、I/O節(jié)點、非并行計算機與用戶終端分別處于不同的Vlan,Vlan之間設(shè)置訪問規(guī)則,不允許用戶終端直接訪問計算集群,同時用戶終端內(nèi)部按照權(quán)限還要分為不同的Vlan,防止內(nèi)部不同Vlan的用戶越權(quán)訪問和非法控制;二是端口控制,基于端口的ACL(訪問控制列表)策略在IP層防止非計算中心內(nèi)部人員訪問計算中心資源并且在業(yè)務(wù)端口屏蔽TCPUDP協(xié)議端口的通信,只放開特定應(yīng)用到的協(xié)議端口。三是終端接入認(rèn)證,分析篩選出不合法接入網(wǎng)絡(luò)的主機,對非法接入的主機進行報警,生成日志和報表信息,對非法接入的主機進行自動阻斷或阻斷恢復(fù)。四是終端安全管理,實現(xiàn)安全策略管理、終端入網(wǎng)認(rèn)證、終端出網(wǎng)許可、用戶登錄計算機的身份認(rèn)證、網(wǎng)絡(luò)進程訪問控制、防病毒軟件監(jiān)測、系統(tǒng)補丁管理、安全操作管理等功能。保證安全策略的合規(guī)性,保障終端的安全運行環(huán)境。從內(nèi)向外,進行關(guān)鍵數(shù)據(jù)安全設(shè)置,實現(xiàn)知識產(chǎn)權(quán)和核心技術(shù)的保護。目前所有的網(wǎng)絡(luò)安全產(chǎn)品大部分都集中在核心數(shù)據(jù)的外圍,并沒有針對數(shù)據(jù)本身的安全保障提出有效的解決方案。防火墻、入侵檢測、內(nèi)外網(wǎng)隔離以及其它針對外部網(wǎng)絡(luò)的訪問控制系統(tǒng),難以解決內(nèi)部的網(wǎng)絡(luò)安全問題。內(nèi)部人員可以輕松地將計算機中的機密信息通過移動存儲設(shè)備或者網(wǎng)絡(luò)泄露出去,而且不會留下任何痕跡。
6 平臺性能測試
研究院高性能計算平臺采用Linpack進行性能測試,評價集群的浮點計算能力。測試編譯器采用GNUC和Fortran,并行環(huán)境版本為openmpi-1.4.3,數(shù)學(xué)庫采用GotoBLAS,測試軟件采用開源HPL。測試參數(shù)結(jié)合通信方式、矩陣規(guī)模、網(wǎng)絡(luò)、處理器速度進行設(shè)置。測試分三步開展,(1)單節(jié)點單核測試,(2)單節(jié)點多核測試,(3)多節(jié)點測試。
通過Linepack測試,并行計算實際浮點計算能力達到417.28Gflops,總體浮點計算能力理論峰值最大達到655.36Gflops,集群的并行效率達到91.17%,讀帶寬3254.21MB/s,讀延遲為2.42s,寫帶寬3249.27MB/s,寫延遲為1.30s,達到設(shè)計要求。
7 結(jié)語
研究院高性能計算中心建設(shè)為發(fā)電技術(shù)研究工作提供了高速計算能力,拓展了公司信息化建設(shè)的領(lǐng)域,包含海水淡化系統(tǒng)大型蒸汽噴射器的設(shè)計與優(yōu)化、海水淡化蒸發(fā)器結(jié)構(gòu)應(yīng)力的計算、脫硫脫硝反應(yīng)器的流場優(yōu)化和結(jié)構(gòu)應(yīng)力計算、脫硫事故噴淋水均勻性優(yōu)化、空冷系統(tǒng)的結(jié)構(gòu)優(yōu)化和燃燒器的優(yōu)化模擬等。以海水淡化計算程序模型百萬級網(wǎng)格、復(fù)雜程度在中等為例,單個工況的計算時間在60-90分鐘,全工況的計算時間為4天,較個人工作站縮短了10倍以上,大大節(jié)約了計算時間,提高了工作效率。同時,計算中心實現(xiàn)了網(wǎng)絡(luò)、信息和數(shù)據(jù)的安全,提供計算中心內(nèi)用戶行為與內(nèi)容的監(jiān)控和文檔安全服務(wù),實現(xiàn)了網(wǎng)絡(luò)內(nèi)所有的用戶行為都可控可查,實現(xiàn)企業(yè)內(nèi)部的信息和數(shù)據(jù)的安全保密。
參考文獻:
[1]顧國平,周雋.基于IBM的高性能計算平臺解決方案[C].中國建筑學(xué)會首屆工程設(shè)計高性能計算(HPC)技術(shù)應(yīng)用論壇論文匯編,2007,12.
[2]李偉,徐志偉,唐志敏.國家高性能計算環(huán)境的設(shè)計與實現(xiàn)[C].863計劃智能計算機主題學(xué)術(shù)會議論文集,2001,2.
[3]劉洋,周家啟,謝開貴.基于集群技術(shù)構(gòu)建電力系統(tǒng)高性能計算平臺[J].計算機仿真,2005,22(2).
[4]劉洋,謝開貴,周家啟.基于集群技術(shù)構(gòu)建電力系統(tǒng)高性能計算平臺[J].電力系統(tǒng)自動化,2006,30(18).
[5]趙毅,朱鵬,遲學(xué)斌.淺析高性能計算應(yīng)用的需求與發(fā)展[J].計算機研究與發(fā)展,2007,44(10).
[6]徐斌,劉曉明.高性能計算平臺架構(gòu)搭建之淺見[C].CAD/CAM學(xué)術(shù)交流會議論文集,2009,05.
[7]王強,劉振安,徐昊.高性能計算節(jié)點智能平臺管理模塊的設(shè)計[J].核電子學(xué)與探測技術(shù),2011,31(5).
[8]李亮,聶瑞華.高性能計算平臺的IO性能測試與分析[J].計算機與現(xiàn)代化,2011(6).
作者簡介:王曦釗(1984.2-),男,北京,碩士學(xué)位,工程師,研究方向:企業(yè)信息化、信息系統(tǒng)設(shè)計與建設(shè)。