陳紅梅,郭 偉,賴重遠
(1.江漢大學(xué) 交叉學(xué)科研究院,湖北 武漢 430056;2.江漢大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,湖北 武漢 430056)
長期以來,理論推導(dǎo)和科學(xué)實驗是人類進行科學(xué)研究的兩大方法,但隨著高性能計算技術(shù)和應(yīng)用的蓬勃發(fā)展,計算模擬已成為科學(xué)研究中不可缺少的第三種方法[1]。高性能計算已經(jīng)在基礎(chǔ)科學(xué)研究、工業(yè)設(shè)計等各個領(lǐng)域廣泛應(yīng)用,解決了一些重大科學(xué)和工程問題[2]。高性能計算是前沿性的高技術(shù),是各國爭奪的戰(zhàn)略制高點,是國家創(chuàng)新體系的重要組成部分。
高校的科學(xué)研究急需高性能計算技術(shù)的支持。綜合性普通高等學(xué)校的大數(shù)據(jù)處理具有以下特點:
(1)數(shù)據(jù)處理的規(guī)模相對有限;
(2)數(shù)據(jù)處理的類型多樣,有的需要復(fù)雜計算步驟和復(fù)雜數(shù)據(jù)依賴,有的需要大量重復(fù)的數(shù)據(jù)集運算以及密集的內(nèi)存存取,有的需要共享存儲,等等;
(3)數(shù)據(jù)處理的時間具有階段性,綜合性普通高等學(xué)校的數(shù)據(jù)處理需求一般跟隨項目情況變化。
隨著個人計算機和局域網(wǎng)技術(shù)的快速發(fā)展、Linux操作系統(tǒng)的日趨穩(wěn)定,以及基于消息傳遞的并行程序設(shè)計標準的發(fā)布,誕生了集群系統(tǒng)。
集群系統(tǒng)是使用高速通信網(wǎng)絡(luò)將多臺原本獨立的微機或工作站連接在一起,構(gòu)成一個統(tǒng)一的整體,使之可作為一種單一的資源來使用。以提高科學(xué)計算能力為目的的集群系統(tǒng),稱為高性能計算集群[3],也稱為集群式高性能計算機。
中國已成為繼美國、日本之后的第三個具備高性能計算機研制能力的國家,成為了世界高性能計算機市場的“第三股力量”[4]。2013年6月,由國防科技大學(xué)研制的“天河二號”超級計算機位列世界TOP500第一名,并連續(xù)6次蟬聯(lián)冠軍。2016年6月,由國家并行計算機工程技術(shù)研究中心研制的“神威·太湖之光”取得世界TOP500冠軍。截至2017年11月,“神威·太湖之光”和“天河二號”連續(xù)四次分列世界TOP500的冠亞軍[5]。
基于高性能計算機的精量化研究和模擬分析手段,建設(shè)高性能計算平臺對相關(guān)學(xué)科追蹤國際科技前沿,提升科學(xué)研究水平,促進學(xué)科交叉和催生新興學(xué)科具有積極意義。
鑒于此,國內(nèi)各大高校和科研院所很多已經(jīng)建立了自己的高性能計算平臺。清華大學(xué)2005年底就建立了自己的高性能計算平臺[6]。中國科技大學(xué)于2003年10月初步建成了中國科大-中國惠普高性能運算聯(lián)合實驗室,后經(jīng)不斷的發(fā)展擴建,于2013年建成了中國科技大學(xué)超級計算中心。上海交通大學(xué)于2013年建成了高性能計算中心[7]。武漢大學(xué)于2015年建立了超算中心[8]。北京大學(xué)也于2016年建成了高性能計算平臺。建立了高性能計算平臺的高校大多是依托校內(nèi)的一兩個重點學(xué)科,針對重點學(xué)科大規(guī)模數(shù)據(jù)處理的特點,建立了比較有針對性的高性能計算平臺。
江漢大學(xué)作為一所綜合性普通高等學(xué)校,校內(nèi)各理工學(xué)科對于高性能計算也有著迫切需求。結(jié)合普通高校大規(guī)模數(shù)據(jù)處理的特點,本著開放共享、全體受益的原則,江漢大學(xué)于2014年建立了小型通用高性能計算平臺。該平臺為全校師生提供高性能計算服務(wù),為學(xué)校的科研提供基礎(chǔ)性平臺支持。
對于具有復(fù)雜計算步驟和復(fù)雜數(shù)據(jù)依賴的計算任務(wù),如分布式計算、人工智能、物理模擬,以及其他通用應(yīng)用程序等,適合使用多核CPU(central processing unit)進行并行計算。對于需要大量重復(fù)的數(shù)據(jù)集運算以及密集的內(nèi)存存取的計算任務(wù),如視頻編碼解碼、矩陣運算、醫(yī)療應(yīng)用、生命科學(xué)等研究應(yīng)用,適合使用GPU(graphics processing unit)進行并行計算。對于共享存儲的計算任務(wù),如數(shù)據(jù)庫、在線事務(wù)處理系統(tǒng)和數(shù)據(jù)倉庫等,適合使用SMP(symmetrical multi-processing)進行并行計算。這是由CPU、GPU和SMP各自的設(shè)計目的和內(nèi)部的結(jié)構(gòu)差異所決定的。
(1)CPU被設(shè)計成為一個“通才”,它要兼顧指令和數(shù)值的并行運算,大部分的晶體管用在了高速緩存和控制電路上,控制電路內(nèi)部僅有少量的算術(shù)邏輯單元(ALU),更多的是用于加速分支判斷甚至更復(fù)雜的邏輯判斷的硬件。CPU的設(shè)計目的是指令執(zhí)行的高效率,實現(xiàn)程序執(zhí)行時的指令相關(guān)性和數(shù)據(jù)相關(guān)性等復(fù)雜邏輯[9]。CPU擅長處理擁有復(fù)雜指令調(diào)度、循環(huán)、分支、邏輯判斷以及執(zhí)行等的程序任務(wù)。
(2)GPU則被設(shè)計成為一個專注計算的“專才”,它內(nèi)部的大部分晶體管被用來進行數(shù)據(jù)處理,只有少量的被用做數(shù)據(jù)緩存和指令流控制。GPU的設(shè)計目的是面向矩陣類型的數(shù)值計算,它的眾核架構(gòu)(比如NVIDIA Tesla K20M有2 496個CUDA核心)[10-11]非常適合把同樣的指令流并行發(fā)送到眾核上,采用不同的輸入數(shù)據(jù)執(zhí)行。GPU的優(yōu)勢是進行無邏輯關(guān)系數(shù)據(jù)的并行計算。
(3)SMP體系結(jié)構(gòu)[12]的特點是基于共享存儲,具有多級高速緩存,通過高速監(jiān)聽總線實現(xiàn)處理器與共享存儲器之間的連接。SMP最重要的特性是系統(tǒng)是對稱的,每個處理器可等同地訪問共享存儲器、I/O設(shè)備和操作系統(tǒng)服務(wù)。正是對稱,才能開拓較高的并行度。
綜上所述,GPU在并行計算上的優(yōu)勢無可厚非,但是GPU計算上的突出優(yōu)勢也僅僅體現(xiàn)在浮點運算上,在整數(shù)運算、邏輯運算和控制運算上,相較于CPU劣勢十分明顯。依據(jù)綜合性普通高等學(xué)校大數(shù)據(jù)處理的特點,高性能計算平臺合理的構(gòu)建方式應(yīng)該是主要配備CPU計算節(jié)點,然后配備少量的GPU計算節(jié)點和SMP計算節(jié)點。
依據(jù)綜合性普通高等學(xué)校大數(shù)據(jù)處理的特點,江漢大學(xué)深入開展調(diào)研和前期論證研討,遵照按需建設(shè)、適度超前的原則,創(chuàng)建了一個小型通用高性能計算平臺。此平臺創(chuàng)建了一個通用的計算環(huán)境,同時又考慮了不同用戶和應(yīng)用的特殊需求。江漢大學(xué)小型通用高性能計算平臺的拓撲如圖1所示。
圖1 江漢大學(xué)小型通用高性能計算平臺拓撲
(1)計算節(jié)點。
江漢大學(xué)小型通用高性能計算平臺擁有三種類型的計算節(jié)點:多核CPU節(jié)點、GPU節(jié)點和SMP節(jié)點。
多核CPU節(jié)點:刀箱1臺,含16個刀片服務(wù)器DELL M620,每個刀片服務(wù)器含2個CPU(E5-2650V2,8核 2.6 GHz 20 M緩存),64 GB內(nèi)存(8*8 GB RDIMM,1 333 MHz)、300 GB 15 K硬盤。CPU節(jié)點的峰值計算能力是每秒5.3萬億次浮點運算。
GPU節(jié)點2個:DELL R720服務(wù)器,每臺含2個CPU(E5-2650V2,8核2.6 GHz 20 M緩存),64 GB內(nèi)存(8*8 GB RDIMM,1 333 MHz)、2個300 GB 15 K SAS 2.5寸硬盤。每臺GPU服務(wù)器配備2個NVIDIA Tesla K20M GPU卡。GPU節(jié)點的雙精度浮點性能是1.17萬億次每秒,單精度浮點運算能力是3.52萬億次每秒。
SMP節(jié)點1個:DELL R910服務(wù)器,4個CPU(E7-4820,8核2.0 GHz 18 M緩存),1 T內(nèi)存(64*16 GB 1 333 MHz)、2個300 GB 15 K SAS 2.5寸硬盤。
(2)登錄、管理和I/O節(jié)點。
登錄服務(wù)器2臺:DELL R720,每個登錄服務(wù)器含2個CPU(E5-2640V2,8核2.0 GHz,20 M緩存),64 G內(nèi)存(8*8 GB RDIMM,1 333 MHz),2個300 G 15 K SAS 2.5寸硬盤。
管理服務(wù)器1臺:DELL R720,含2個CPU(E5-2620V2,6核2.0 GHz,15 M緩存),64 G內(nèi)存(8*8 GB RDIMM,1 333 MHz),2個300 G 15 K SAS 2.5寸硬盤。
I/O服務(wù)器2臺:DELL R720,每個I/O服務(wù)器含2個CPU(E5-2640V2,8核2.0 GHz,20 M緩存),64 G內(nèi)存(8*8 GB RDIMM,1 333 MHz),2個300 G 15 K SAS 2.5寸硬盤。
(3)存儲系統(tǒng)。
主存儲是MD3600f,含12個600 GB 3.5" 15 K RPM,6 Gbps SAS硬盤;配帶2個存儲盤柜MD1200,每個盤柜含12個600 GB 3.5" 15 K RPM,6Gbps SAS硬盤。共21.6 T。存儲系統(tǒng)做完RIAD5之后,容量大概是17 T。
備份存儲是DELL R720XD,含12個2 T的存儲硬盤,配備一個存儲盤柜,內(nèi)含8個2 T的存儲硬盤。
(4)通信網(wǎng)絡(luò)。
整個平臺使用CISCO WS-C4506萬兆以太網(wǎng)交換機,通過網(wǎng)絡(luò)實現(xiàn)所有節(jié)點的互聯(lián)。為滿足高性能計算對數(shù)據(jù)傳輸?shù)男阅芤螅嬎憔W(wǎng)絡(luò)使用56 Gbps速率的Infiniband網(wǎng)絡(luò)[13-14]實現(xiàn)計算節(jié)點、登陸節(jié)點和I/O節(jié)點間的高速連接。
(5)作業(yè)調(diào)度系統(tǒng)。
平臺的操作系統(tǒng)為Redhat Linux Server 6.4,應(yīng)用開發(fā)環(huán)境軟件為Intel Cluster Studio軟件工具包。作業(yè)調(diào)度系統(tǒng)為IBM Platform LSF,平臺所有用戶通過Platform作業(yè)調(diào)度系統(tǒng)[15]提交作業(yè),所有作業(yè)統(tǒng)一排隊等待系統(tǒng)分配資源運行。目前平臺共提供三種隊列:第一種是用于多核CPU計算的normal隊列;第二種是用于共享存儲計算的bigmem隊列;第三種是用于GPU計算的owerns隊列。
小型通用高性能計算平臺建立后,通過為校內(nèi)科研工作者提供高質(zhì)量的計算服務(wù),對支援學(xué)??蒲邪l(fā)展起到了積極的作用。從2014年9月建立,至2018年10月,該計算平臺為交叉學(xué)科研究院、數(shù)學(xué)與計算機科學(xué)學(xué)院、護理與醫(yī)學(xué)技術(shù)學(xué)院、醫(yī)學(xué)院、物理與信息工程學(xué)院、工程訓(xùn)練中心等院系提供了高性能計算服務(wù),專業(yè)及研究方向涵蓋凝聚態(tài)物理、計算機應(yīng)用、模式識別、軟物質(zhì)物理、表觀遺傳學(xué)、有機高分子材料、醫(yī)學(xué)等。使用高峰時多核CPU計算和共享存儲計算隊列需要排隊等待,圖形計算的GPU隊列使用較少。平臺使用情況如圖2所示。
(b)通用計算平臺資源使用情況圖2 平臺使用情況
江漢大學(xué)小型通用高性能計算平臺建立之后的四年時間里,共支持了七項國家級項目,分別是“聚合物材料的光電性質(zhì)及雜原子微觀動力學(xué)機制”、“基于聚苯胺金屬納米線復(fù)合透明對電極的雙面進光燃料敏華太陽能電池研究”、“亞分子級分辨原子力顯微鏡中分子修飾針尖的第一性原理研究”、“步行分子馬達在金屬表面的定向擴散機制的理論研究”、“二維平面上混合自組裝單層有序微相的結(jié)構(gòu)調(diào)控和性質(zhì)研究”、“物體形狀部分視覺顯著性度量及其應(yīng)用”、“基于分子內(nèi)電荷轉(zhuǎn)移的BODIPY類熒光衍生物的機制研究”。支持了四項省部級項目,分別是“基于隨機優(yōu)化的公共服務(wù)設(shè)施選址問題研究”、“突發(fā)事件下城市交通擁堵傳播規(guī)律及控制策略研究”、“太陽能光伏發(fā)電智能化監(jiān)測及信息管理系統(tǒng)”、“基于第二代高通量測序技術(shù)研究干旱脅迫條件下擬南芥去乙酰化酶HDA9負調(diào)控和HDA6正調(diào)控作用機制”。支持了一項校級項目“混合溶液中核酸單鏈的柔性”。
江漢大學(xué)小型通用高性能計算平臺的建立,緩解了江漢大學(xué)科研工作者計算資源短缺的問題,為他們提供了一個穩(wěn)定、可靠的計算環(huán)境。高性能計算平臺的良好運行,提高了江漢大學(xué)的科技成果產(chǎn)出效率,使得江漢大學(xué)在計算方面的科學(xué)研究得到了進一步的發(fā)展。