摘要:在針對高速列車強度、流體力學(xué)、空氣動力學(xué)等仿真領(lǐng)域的硬件支撐系統(tǒng)進(jìn)行選型時,選擇具有先進(jìn)技術(shù)的計算機系統(tǒng)尤為重要。本文主要介紹適合仿真計算的高性能計算中心的配置選型與架構(gòu)設(shè)計,首先介紹仿真領(lǐng)域?qū)Ω咝阅苡嬎阒行牡男枨蠓治?,然后根?jù)需求分析對目前主流的高性能計算中心配置和架構(gòu)進(jìn)行分析對比,最后確定滿足仿真計算需求的高性能計算中心選型方案。
關(guān)鍵詞:高性能計算中心;仿真計算;計算性能;網(wǎng)絡(luò)架構(gòu)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1007—9599 (2012) 14—0000—02
一、引言
在進(jìn)行高速列車強度、流體力學(xué)、空氣動力學(xué)等仿真領(lǐng)域的仿真分析時,仿真分析的幾何模型規(guī)模龐大,網(wǎng)格數(shù)量眾多,需要消耗大量計算機硬件資源,往往需要在高性能計算中心完成仿真計算。選擇適合于仿真計算的高性能計算中心,可以縮短仿真周期,提高仿真精度,保證仿真數(shù)據(jù)的安全,對企業(yè)仿真能力的提升起到至關(guān)重要的作用。
二、高性能計算中心的需求分析
仿真分析由于牽扯到網(wǎng)格劃分及模型處理,對硬件設(shè)備的性能要求較高,要求計算中心應(yīng)可以進(jìn)行多種學(xué)科的高性能仿真計算,可以進(jìn)行大幾何模型的網(wǎng)格劃分,能在較短時間內(nèi)較大規(guī)模的仿真分析計算。
建成后的高性能計算中心應(yīng)不僅能夠滿足目前業(yè)務(wù)的需要,還能適應(yīng)未來技術(shù)發(fā)展的趨勢和需要。應(yīng)具有統(tǒng)一高效的資源管理系統(tǒng),對所有計算節(jié)點資源進(jìn)行統(tǒng)一監(jiān)控與管理,以集中統(tǒng)一的管理方式,高效率、反應(yīng)靈敏的技術(shù)服務(wù)機制,標(biāo)準(zhǔn)化、自動化的管理流程達(dá)到提供優(yōu)質(zhì)的資源管理服務(wù)。高性能計算中心應(yīng)盡量占用少的機房空間,提高機房的空間使用效率,保證在有限的空間內(nèi)發(fā)揮最大的計算性能。仿真數(shù)據(jù)涉及企業(yè)的核心技術(shù),是企業(yè)重要的技術(shù)資源,計算中心的選型須全面考慮數(shù)據(jù)的安全問題,確保數(shù)據(jù)的保密性,完整性,可靠性。
三、主流高性能計算中心的分析對比
(一)小型機與刀片集群的比較
小型機具有高運算能力、高可靠性、高服務(wù)性、高可用性等四大特點,延續(xù)了大型機、中型機的高標(biāo)準(zhǔn)設(shè)計技術(shù),采用高穩(wěn)定性的UNIX操作系統(tǒng),一般含有8—64個CPU,具有32G—256G甚至更高的海量內(nèi)存容量,并設(shè)計有專用高速I/O通道,電源系統(tǒng)、I/O系統(tǒng)、散熱系統(tǒng)皆設(shè)有冗余。
刀片集群是將多個刀片服務(wù)器連接而成,具有非常好的擴展性,通過增加刀片服務(wù)器即可實現(xiàn)CPU數(shù)量、內(nèi)存容量的擴展。刀片集群占用空間小,對于機房空間緊張或者托管服務(wù)器的企業(yè)來說節(jié)約了大量的空間成本;刀片服務(wù)器采用集中管理的方式,簡化了服務(wù)器的管理,可有效降低維護成本。
對于小型機和刀片集群在仿真領(lǐng)域的應(yīng)用,小型機主要用來解決硬件要求較高的單個仿真任務(wù),不擅長多個仿真任務(wù)同時運行;刀片服務(wù)器配合作業(yè)調(diào)度軟件,可以輕易實現(xiàn)多個仿真任務(wù)同時運行,但對于單個仿真任務(wù)的求解性能要低于小型機。
(二)主流CPU的比較
小型機的CPU架構(gòu)不同于傳統(tǒng)PC服務(wù)器的x86架構(gòu),各小型機生產(chǎn)廠商都具有自己獨特地CPU,主要有IBM的PowerPC處理器,SUN公司和TI公司合作開發(fā)的SPARC處理器,HP公司的PA—RISC處理器,MIPS公司的MIPS處理器,Compaq公司的Alpha處理器。
刀片集群的CPU采用的是PC服務(wù)器主流的x86架構(gòu),主要CPU生產(chǎn)廠商為Intel和AMD。Intel針對刀片集群推出了高端CPU至強系列,最新系列產(chǎn)品為E5系列和E7系列,單顆CPU最高可至10核,高性能計算領(lǐng)域推薦使用的型號為E5的2600系列和5000的5600系列。AMD針對刀片集群推出了高端CPU皓龍系列,其中皓龍6200系列更是具有強大的處理性能,有些產(chǎn)品單顆CPU甚至達(dá)到了16核。雖然AMD已經(jīng)推出了高端CPU,但相比Intel的高端CPU,由于AMD的CPU架構(gòu)不如Intel,運算效率相比Intel要差一些,因此IBM、HP、浪潮等刀片集群服務(wù)商幾乎全部使用的Intel處理器。
(三)網(wǎng)絡(luò)架構(gòu)的比較
高性能計算中心按功能分一般由3類網(wǎng)絡(luò)組成:管理網(wǎng)絡(luò)、計算網(wǎng)絡(luò)、存儲網(wǎng)絡(luò)。管理網(wǎng)絡(luò)普遍采用千兆以太網(wǎng),將管理節(jié)點、計算節(jié)點、I/O節(jié)點連接成1個整體,由管理節(jié)點對整個高性能計算中心進(jìn)行管理。計算網(wǎng)絡(luò)采用以太網(wǎng)或infiniband網(wǎng):由以太網(wǎng)構(gòu)成的計算網(wǎng)絡(luò)傳輸速率低,但價格優(yōu)勢明顯,因此受到一些中小企業(yè)的青睞;由infiniband網(wǎng)構(gòu)成的計算網(wǎng)絡(luò)具有非常高的傳輸速率,網(wǎng)絡(luò)延遲低,是最常用的高性能計算網(wǎng)絡(luò)。存儲網(wǎng)絡(luò)一般有光纖網(wǎng)和以太網(wǎng)兩種類型,具體選型由存儲的類型決定,高性能計算中心連接的存儲一般為SAN存儲(Storage Area Network),通常情況下使用光纖進(jìn)行I/O節(jié)點和存儲的互聯(lián)以便更好發(fā)揮存儲性能。
四、高性能計算中心實現(xiàn)方案
(一)整體系統(tǒng)架構(gòu)
1.使用一箱刀片服務(wù)器作為計算節(jié)點,根據(jù)刀片機箱型號配置12—16個計算節(jié)點,每個計算節(jié)點配置40G InfiniBand卡,刀片機箱配置一個30口InfiniBand 交換機,對內(nèi)14個接口,對外16個接口。
2.使用兩臺機架式服務(wù)器作為I/O節(jié)點,I/O節(jié)點和計算節(jié)點之間通過InfiniBand網(wǎng)絡(luò)連接,確保計算節(jié)點可以高速訪問存儲。同時I/O節(jié)點采用GPFS并行文件系統(tǒng),一方面確保數(shù)據(jù)快速輸入,另一方面避免單點故障,兩個I/O節(jié)點通過光纖存儲卡連接光纖存儲。
3.使用一臺機架式服務(wù)器作為管理節(jié)點,承擔(dān)用戶登錄、程序調(diào)試、作業(yè)管理及刀片集群管理等工作。管理節(jié)點通過千兆以太網(wǎng)與公司現(xiàn)有網(wǎng)絡(luò)相連,用戶通過公司的千兆以太網(wǎng)訪問計算集群。
4.刀片機箱、I/O節(jié)點、管理節(jié)點用過千兆以太網(wǎng)交換機連接在一起,對高性能計算集群的訪問和管理均通過以太網(wǎng)來進(jìn)行;刀片機箱、管理節(jié)點組成的infiniband網(wǎng)絡(luò)用來完成仿真計算的數(shù)據(jù)交互;I/O節(jié)點、光纖存儲組成的光纖網(wǎng)絡(luò)用來完成刀片集群與光纖存儲的數(shù)據(jù)交互。
(二)軟件選擇
1.操作系統(tǒng)
刀片服務(wù)器采用Linux redhat操作系統(tǒng);
I/O節(jié)點和管理節(jié)點采用window2003/2008操作系統(tǒng)。
2.集群系統(tǒng)管理軟件
選用集群配套的管理軟件,允許通過一個單點控制和管理整個集群系統(tǒng),可以實現(xiàn)集群的組成,管理和控制。通過集群系統(tǒng)管理軟件可以完成節(jié)點軟件遠(yuǎn)程安裝和更新、集群內(nèi)所有節(jié)點運行狀態(tài)的持續(xù)監(jiān)控、節(jié)點故障偵測和自動響應(yīng)、文件的單點修改和分發(fā)或同步、節(jié)點上電/關(guān)機/重啟動等功能。
3.共享文件系統(tǒng)
GPFS 是一個并行的磁盤文件系統(tǒng),它保證在資源組內(nèi)的所有節(jié)點可以并行訪問整個文件系統(tǒng);而且針對此文件系統(tǒng)的服務(wù)操作,可以同時安全地在使用此文件系統(tǒng)的多個節(jié)點上實現(xiàn)。由于數(shù)據(jù)全部存儲在光纖存儲中,GPFS允許各個節(jié)點共享存儲中的數(shù)據(jù)文件,保證了各個節(jié)點數(shù)據(jù)的一致性,也保證了節(jié)點出現(xiàn)故障后數(shù)據(jù)依然完整。
五、結(jié)束語
在科學(xué)技術(shù)飛速發(fā)展的今天,仿真分析與高性能計算的結(jié)合變得越來越緊密,借助高能性計算中心的強大處理能力,眾多原本被認(rèn)為無法完成的仿真計算逐漸成為可能。隨著高性能計算相關(guān)技術(shù)的發(fā)展,高性能計算中心的實現(xiàn)方式逐漸呈現(xiàn)多樣化復(fù)雜化的趨勢,只有針對特定的仿真學(xué)科,選擇合適的高性能計算中心配置,采用合理的網(wǎng)絡(luò)架構(gòu),才能使高性能計算中心發(fā)揮出最佳性能。
參考文獻(xiàn):
[1]徐明強.微軟高性能計算服務(wù)器[M].北京:人民郵電出版社,2010
[2]顧冠群,陶軍,吳家皋.高新能計算機網(wǎng)絡(luò)研究進(jìn)展[M].南京:東南大學(xué)出版社,2006
[3]陳國良,吳俊敏,章鋒,等.并行計算體系結(jié)構(gòu)[M].徐炯,譯.北京:高等教育出版社,2002
[4]IBM.40萬億次高性能計算解決方案 [CP/DK]
[5]IBM.高性能集群系統(tǒng)簡介 [CP/DK]