,
(國防科技大學計算機學院,湖南 長沙 410073)
國際上高性能計算機的發(fā)展速度非常迅猛,在最新的TOP500的榜單中[1],排名前4位的系統(tǒng)分別是美國IBM公司的Summit系統(tǒng)和Sierra系統(tǒng)、中國的神威“太湖之光”、以及國防科技大學的“天河二號”。榜單前十中,美國共6套系統(tǒng),IBM公司3臺(Summit、Sierra和Lassen),Cray公司2臺(Piz Daint、Trinity),Dell EMC公司1臺(Frontera);中國3套系統(tǒng),神威“太湖之光”、“天河二號”、聯(lián)想公司的SuperMUC-NG系統(tǒng);日本1套系統(tǒng),F(xiàn)ujitsu(富士通)公司的ABCI。最新TOP500第1名是IBM的Summit,它的峰值性能達到187.659 PFlop/s,總功率8 805.50 kW,占地面積520 m2。功耗的增加、占地面積的增加,導(dǎo)致綜合使用成本急劇增加。同時,許多計算機廠商都提出了數(shù)E級高性能計算機的發(fā)展計劃[2],這些系統(tǒng)將采用大量的通用處理器和專用處理器、存儲器,這些設(shè)備最終是要通過組裝結(jié)構(gòu)安裝在機架系統(tǒng)中,形成一套可操作的設(shè)備。高性能計算面臨著諸多挑戰(zhàn),超算應(yīng)用面臨著正式建模、靜態(tài)分析與優(yōu)化、運行時分析與優(yōu)化、自主計算四大關(guān)鍵挑戰(zhàn);硬件架構(gòu)面臨著功耗的不斷提高、如何提升運算性能、能效和數(shù)據(jù)密集處理能力。不合適的組裝結(jié)構(gòu)可能導(dǎo)致系統(tǒng)采用數(shù)量眾多的插箱(件)、機柜,系統(tǒng)占地面積大,系統(tǒng)的環(huán)境適應(yīng)性差[3]。因此,在對高性能計算機進行設(shè)計的工程中,除了要對硬件系統(tǒng)結(jié)構(gòu)、軟件環(huán)境進行分析設(shè)計,還需要全盤考慮高性能計算機的組裝結(jié)構(gòu),將規(guī)模和功耗納入整體設(shè)計的考慮范圍,從以性價比為中心轉(zhuǎn)向以性能能耗比為中心的設(shè)計[4]。
高性能計算機的組裝結(jié)構(gòu)目前還無人進行分類。綜合多年高性能計算機組裝結(jié)構(gòu)的設(shè)計經(jīng)驗,按照高性能計算機的計算插件及背板的組裝結(jié)構(gòu)設(shè)計,將高性能計算機的組裝結(jié)構(gòu)分為4類:無背板單面組裝結(jié)構(gòu)、無背板雙面組裝結(jié)構(gòu)、有背板單面組裝結(jié)構(gòu)和有背板雙面組裝結(jié)構(gòu),如圖1所示。
圖1 組裝結(jié)構(gòu)示意
無背板單面組裝結(jié)構(gòu)最典型的方式就是集群系統(tǒng)的組裝結(jié)構(gòu)。機架內(nèi)水平安裝數(shù)個節(jié)點插箱,各插箱之間的互連通過互連線纜連接。
無背板雙面組裝結(jié)構(gòu),機架內(nèi)前后都安裝數(shù)個節(jié)點插箱。由于機架中部操作比較困難,插箱之間的互連線纜和電源線纜只能從插箱的前部和后部進行布線,機架布線系統(tǒng)復(fù)雜,可操作性差。機柜中部的線纜遮擋了前后散熱通道,機架系統(tǒng)冷卻困難。沒有高性能計算機采用這種組裝結(jié)構(gòu)。
有背板單面組裝結(jié)構(gòu),機架中安裝有數(shù)個插箱,每個插箱背面安裝有背板,每塊背板單面上水平或豎直安裝有數(shù)塊節(jié)點插件。插件和背板之間通過高速插頭插座連接,因此同一背板上的插件之間互連不需線纜連接,但同一機柜內(nèi)不同插箱之間互連,需要通過線纜連接,一般是在插箱的背面通過線纜或光纜進行連接。目前流行的刀片服務(wù)器的組裝結(jié)構(gòu)可以歸為此類。
有背板雙面組裝結(jié)構(gòu),機架中安裝有數(shù)塊背板,每塊背板的前后兩面均水平或豎直安裝有數(shù)量基本相同的節(jié)點插件,插件和背板之間通過高速插頭插座連接,同一背板上的插件之間互連通過背板連接,只有背板之間才需要線路連接,簡化了機器的線纜布置。這種組裝結(jié)構(gòu)的組裝密度理論上可以達到有背板單面插箱(件)的1.5倍以上。無背板單面組裝結(jié)構(gòu)由于其插箱可采用商用機箱,機柜也可使用標準機柜,因而具有通用性。使用目前可安裝2~4個CPU的1U插箱,在42U的機架中可安裝42個1U的插箱,共84~126塊CPU,功耗大約17~34 kW。
有背板單面組裝結(jié)構(gòu)必須采用專門設(shè)計的專用插件。盡管刀片結(jié)構(gòu)有技術(shù)標準,但此標準僅限于各生產(chǎn)廠商集團,國際上還沒有統(tǒng)一的標準。為保證插件和背板的良好接合,還必須設(shè)計精密的插框結(jié)構(gòu)安裝插件和背板,因此這種組裝結(jié)構(gòu)目前不具備通用性。如Cray的XT4高計算密度服務(wù)器機柜中安裝了3組插框結(jié)構(gòu),每個插框安裝8塊插件,每插件4個CPU,共96塊CPU,功耗大約22 kW。
有背板雙面組裝結(jié)構(gòu)具有更高的組裝密度,在高性能計算機中首先大規(guī)模采用這種組裝結(jié)構(gòu)的是IBM的Blue Gene系統(tǒng)。有背板雙面組裝結(jié)構(gòu)由于在背板兩面對插有數(shù)量基本相等的計算插件,背板上插座占用的面積大,背板上無法提供保證背板兩面插件冷卻所需的前后通風面積,故這種組裝結(jié)構(gòu)無法采用傳統(tǒng)前后通風式風冷方式。同時由于單機柜的插件數(shù)量可以達到有背板單面插箱(件)式組裝結(jié)構(gòu)的2倍,其功耗有可能超過機柜風冷的極限,需要液冷風冷混合、液冷、蒸發(fā)冷卻等更高效率的冷卻方式。在多個機柜組成的高性能計算機系統(tǒng)中,有背板雙面組裝結(jié)構(gòu)式機柜相當于將2個有背板單面組裝結(jié)構(gòu)式機柜組合在一起,但消除了2個機柜之間的走風、背部線纜和維修空間,從而可以提高系統(tǒng)的組裝密度。
目前,世界上高性能計算機系統(tǒng)的組裝散熱技術(shù)可以分為全風冷、全液冷和風液混合3種方式[5]。
全風冷方案采用壓縮機和風機使得流動的冷風通過發(fā)熱器件表面進行散熱,同時將熱風交換出去。全風冷散熱方案成熟,構(gòu)建和運行成本低,維護方便,但散熱效率較低,穩(wěn)定性較差,且噪聲大,能耗偏高,系統(tǒng)PUE比值約為1.5。
全液冷方案采用液體作為熱交換介質(zhì),將熱量通過外循環(huán)體系或者蒸發(fā)實現(xiàn)冷卻,具有自身能耗低、散熱效率高、穩(wěn)定性好的優(yōu)勢,但構(gòu)建和運行成本高,且所有芯片需要表貼在主板上,影響主板布板面積,并導(dǎo)致維護不便,另外全液冷系統(tǒng)的安全性和可擴展性較低。
風液混合方案是一種折中方案,該類方案都基于計算機柜間的列間空調(diào)實現(xiàn),能夠兼顧風冷和液冷方案的優(yōu)點。具體又可分為基于風冷散熱器的風液混合方案和基于液冷散熱器的風液混合方案。
a.基于風冷散熱器的混合制冷方案中,大功率器件采用風冷散熱器,通過列間空調(diào)送出冷風將主板上器件的熱量導(dǎo)走,而后通過列間空調(diào)液冷將熱量交換出去。
b.基于液冷散熱器的混合制冷方案中,大功率器件采用液冷散熱器[6],通過列間空調(diào)提供冷卻工質(zhì)將大功率器件熱量交換出去,通過列間空調(diào)冷風完成其他分立器件散熱。
無背板組裝結(jié)構(gòu)是最常見的組裝結(jié)構(gòu)之一,通常在商用標準機柜內(nèi)水平安裝有若干商用機架式計算服務(wù)器,各計算服務(wù)器之間通過線纜和交換機實現(xiàn)互連。該種組裝結(jié)構(gòu)可采用商用標準服務(wù)器機箱和機柜,因而通用性最好,但計算結(jié)點的組裝密度相對偏低。IBM公司[7]的Summit和Sierra系統(tǒng)、聯(lián)想SuperMUC-NG、Fujitsu(富士通)公司的ABCI都是采用該種結(jié)構(gòu)。
Summit系統(tǒng)由4 608臺2U計算服務(wù)器組成,每個服務(wù)器包含2個22核Power9處理器和6個TeslaV100圖形處理單元加速器。服務(wù)器全部安裝在600 mm寬19寸標準機柜內(nèi),每個機柜內(nèi)安裝了20臺服務(wù)器,合計有40個處理器和120個加速單元。Summit系統(tǒng)采用基于液冷散熱器的風液冷混合冷卻方式,處理器和加速單元均采用液冷,其余分立器件采用強制風冷。服務(wù)器之間通過機柜后部的線纜實現(xiàn)互連。如圖2所示。
圖2 IBM公司Summit系統(tǒng)組裝結(jié)構(gòu)實物
有背板組裝結(jié)構(gòu)種組裝結(jié)構(gòu),通常每個機柜中安裝有數(shù)塊背板,背板安裝在定制的插框內(nèi)。每塊背板只有正面水平或豎直安裝有計算插件,背板背面用于連接供電和互連線纜。同一機柜內(nèi)不同背板上的計算插件之間需要通過線纜和交換機實現(xiàn)互連。該種組裝結(jié)構(gòu)一般采用定制化的專用結(jié)構(gòu)插件,國際上沒有形成統(tǒng)一標準,同時為保證插件和背板的良好接合,還需要設(shè)計精密的插框來安裝插件和背板。Cray公司的Piz Daint(XC50)、Trinity(XK7)及Titan(XC40)系統(tǒng)都采用該種結(jié)構(gòu)。
Cray公司XC系列高性能計算機的每個機柜中安裝了3個計算插框;每個插框左右各安裝8塊計算插件,單框合計16塊插件;每塊插件有8個計算或加速處理器,單柜共384塊計算或加速處理器。Cray公司XC系列,在XC40系列中,由于芯片功耗較低,采用全風冷的冷卻方式。在XC50后,芯片功耗及性能大大提高,采用了基于風冷散熱器的風液混合制冷。如圖3所示。
圖3 Cray公司XC系列組裝結(jié)構(gòu)實物
通常每個機柜中安裝有數(shù)塊背板,背板安裝在定制的插框內(nèi),插框一般由前插框和后插框組合而成。每塊背板的正反兩面均水平或豎直安裝有計算插件或者互連插件。由于充分利用了機柜的后部空間,減少了機柜內(nèi)互連線纜的數(shù)量,該組裝結(jié)構(gòu)的組裝密度理論上可以達到有背板單面組裝結(jié)構(gòu)的1.5倍以上。由于背板正反兩面對插有計算插件,背板上插座及印制板布線占用的面積大,對應(yīng)導(dǎo)致背板上可開孔通風的面積較小,因此該組裝結(jié)構(gòu)無法采用前后式風冷方式。同時由于單機柜的組裝密度高,導(dǎo)致功率密度高,因此通常需要采用風液混合、液冷或蒸發(fā)冷卻等更高效率的冷卻方式。但有背板雙面組裝結(jié)構(gòu)可有效縮短單插框內(nèi)計算和互連之間的高速信號傳輸距離,提高信號質(zhì)量。神威“太湖之光”、“天河二號”和IBM公司的Sequoia都采用這種結(jié)構(gòu)。
神威“太湖之光”系統(tǒng)機柜雖然是有背板雙面組裝結(jié)構(gòu)[8],但只有機柜正面安裝了4個計算插框,機柜背面安裝的是4個互連插框;每個計算插框左右各安裝16塊插件,單框合計32塊插件;每插件8個處理器,單柜共1 024個處理器。冷卻方式為全液冷的方式,印制板兩面貼裝在一塊冷板上,如圖4所示。
圖4 “太湖之光”系統(tǒng)組裝結(jié)構(gòu)
國防科大的“天河二號”系統(tǒng)的機柜中安裝了4個計算插框[9-10]。每個插框前后各安裝16塊計算插件,單框合計32塊插件;每塊插件4~5個計算或加速處理器,單柜最大640塊計算或加速處理器。冷卻方式為基于風冷散熱器的風液混合制冷,如圖5所示。單位面積芯片數(shù)量與峰值性能及單機柜峰值能效比性能曲線,如圖6所示。高性能計算機單機柜組裝結(jié)構(gòu)數(shù)據(jù)如表1所示。
圖5 “天河二號”系統(tǒng)的組裝結(jié)構(gòu)
圖6 單位面積芯片數(shù)量和峰值性能及單機柜峰值能效比性能曲線
表1 高性能計算機單機柜組裝結(jié)構(gòu)數(shù)據(jù)
由表1和圖6可以看出,機柜單位面積芯片數(shù)量,從高到低依次是神威太湖之光、天河二號、IBM Summit、Cray XC50系列。有背板雙面組裝結(jié)構(gòu)的計算機可以比無背板組裝結(jié)構(gòu)和有背板單面組裝結(jié)構(gòu)的計算機具有更高的單位面積芯片數(shù)量。這主要是由于有背板雙面組裝結(jié)構(gòu)可以充分利用機柜內(nèi)空間,機柜內(nèi)插框之間的互連網(wǎng)絡(luò)全通過背板,減少線纜空間導(dǎo)致的機柜空間的浪費。但同時,由于機柜雙面都安裝有插件,機柜尺寸會偏大,在組裝上可以考慮充分利用高度方向空間,減小機柜的尺寸。
機柜單位面積峰值性能[11],從高到底依次是神威太湖之光、IBM Summit、CrayXC50系列、天河二號。較高的分別是有背板雙面組裝結(jié)構(gòu)的神威太湖之光和無背板組裝結(jié)構(gòu)的IBM Summit,這主要是由于單位芯片的峰值性能導(dǎo)致的較大差別。說明高性能計算機高密度組裝結(jié)構(gòu)主要作用是提高單位機柜面積的芯片數(shù)量,如果芯片性能差別較大,使用無背板組裝結(jié)構(gòu)也可以達到較高的機柜單位面積峰值性能。
機柜峰值能效比,從高到低依次是IBM Summit、CrayXC50系列、神威太湖之光、天河二號。機柜峰值能效比是高性能計算機的一個重要指標。功耗低、峰值性能高是高性能計算機永遠的追求目標,超級計算機對能量需求巨大,導(dǎo)致能源消耗呈逐年急劇增加的態(tài)勢,E級計算機的發(fā)展對機柜峰值能效比提出了更高的要求。從數(shù)據(jù)中可以看出,美國的高性能計算機的處理器及加速器峰值性能高,雖然國產(chǎn)高性能計算機在提高單機柜芯片數(shù)量方面進行了努力,均采用了有背板雙面組裝結(jié)構(gòu)方式,但芯片性能相比還是差距較大,國產(chǎn)高性能計算機的研發(fā)還任重道遠。
面對E級計算機系統(tǒng)的研制,需要更好更高效的液冷散熱技術(shù)。IBM Summit、Cray XC50系列、神威太湖之光、天河二號這4種系統(tǒng)中,神威太湖之光是采用全液冷的散熱方式,所有芯片包括內(nèi)存都表貼在主板上,對主板布線面積要求較高,冷板面積較大,提高了冷板和印制板設(shè)計加工在高性能計算機系統(tǒng)中的研制成本。IBM Summit將處理芯片等大功率器件用液冷散熱器,通過列間空調(diào)將熱量換出機柜,其他如內(nèi)存等分立器件采用列間空調(diào)冷風完成換熱,對主板設(shè)計加工要求低,可以采用通用器件設(shè)計的主板。而且液冷散熱器體積較小,成本也較低。Cray XC50和天河二號采用基于風冷散熱器的混合制冷方案,所有散熱器均為風冷散熱器,但列間空調(diào)采用液冷換熱,提供冷風將主板上器件的熱量帶走,這種方式散熱成本最低,但能提供的散熱功耗相對較低。結(jié)合成本和散熱性能,基于液冷散熱器的混合制冷方案將會成為構(gòu)建E級系統(tǒng)的散熱趨勢。
有背板雙面組裝結(jié)構(gòu)可以在機柜單位面積上組裝更多的芯片數(shù)量,就單機柜的芯片數(shù)量而言,具有最高的組裝密度,單機柜的峰值性能可以急劇提高,大大降低高性能計算機的占地面積。同時可以基本消除機柜內(nèi)部混亂的走線,提高計算機的可靠性和可維性。但也需要芯片的性能足夠強大,才能發(fā)揮這種組裝結(jié)構(gòu)的優(yōu)勢。隨著液冷散熱技術(shù)的廣泛使用和技術(shù)的成熟,液冷散熱器的使用,消除了有背板雙面組裝結(jié)構(gòu)由于中間背板存在導(dǎo)致的通風困難,有背板雙面組裝結(jié)構(gòu)的優(yōu)勢會更加凸顯。