張彥彬 吳民耀 石裕維 肖熠琳 任豪
?
以第一性原理計算進(jìn)行不同高性能計算集群架構(gòu)性能測評*
張彥彬1吳民耀1石裕維1肖熠琳2任豪2
(1.廣州高能計算機(jī)科技有限公司 2.廣州市光機(jī)電技術(shù)研究院)
高性能計算集群平臺種類繁多,按處理器種類可分為貝奧武夫架構(gòu)的個人計算機(jī)集群和服務(wù)器集群,目前對其性能測評的研究較少。以不同架構(gòu)、不同網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和不同網(wǎng)絡(luò)帶寬的高性能計算機(jī)集群為研究對象,利用第一性原理數(shù)值計算軟件為性能測評工具,對不同的計算集群進(jìn)行性能測評,分析架構(gòu)、拓?fù)浣Y(jié)構(gòu)、帶寬等因素對計算效能的影響。
性能測評;高性能計算集群;CPMD;VASP;第一性原理
利用高性能計算集群進(jìn)行科學(xué)模擬已成為現(xiàn)代科學(xué)研究主流,特別是利用高性能計算機(jī)仿真研究物質(zhì)內(nèi)部原子尺度的結(jié)構(gòu)特性,已經(jīng)成為物理、化學(xué)、生命與材料科學(xué)研究的有效方法。在諸多應(yīng)用領(lǐng)域中,科學(xué)模擬取得的計算成果不僅可解釋實驗中觀察到的測量數(shù)據(jù),還可預(yù)測一些材料的性質(zhì),甚至是設(shè)計和創(chuàng)造新材料。但高性能計算集群建置成本昂貴。因此,利用個人計算機(jī)組成的貝奧武夫(Beowulf)架構(gòu)[1]建立的高性能計算集群得到了快速發(fā)展,其計算性能得到了用戶的肯定。但其具體計算性能與傳統(tǒng)服務(wù)器所搭建的集群對比研究較少,造成高性能計算集群選擇上的困難。鑒于此,本文針對3種不同硬件計算機(jī)集群(2種Beowulf架構(gòu),1種服務(wù)器架構(gòu))和3種不同的集群內(nèi)部資源網(wǎng)絡(luò)連接方法做性能測評。
以密度泛函理論(density functional theory,DFT)為基礎(chǔ)的第一性原理計算,在解釋和預(yù)測材料結(jié)構(gòu)特性方面有非常重要的作用[2]。本文選擇CPMD(Car-Parrinello Molecular Dynamics)[3]和VASP(Vienna Ab-initio Simulation Package)進(jìn)行第一原理計算仿真,比較不同架構(gòu)下高性能計算集群的性能表現(xiàn)。
CPMD是利用第一性原理分子動力學(xué)方法,結(jié)合密度泛函理論和古典分子動力學(xué)的計算機(jī)模擬技術(shù)[4]。
VASP[5]是維也納大學(xué)Hafner小組開發(fā)的進(jìn)行電子結(jié)構(gòu)計算和量子力學(xué)—分子動力學(xué)模擬軟件包。它是目前材料模擬和計算物質(zhì)科學(xué)研究中最流行的商用軟件之一。
本文關(guān)于貝奧武夫架構(gòu)集群所使用的測試平臺為MCBW-I和MCBW-II高性能計算集群,其硬件和軟件配置如表1、2所示。
表1 MCBW- I硬件和軟件配置
表2 MCBW-II硬件和軟件配置
本文關(guān)于服務(wù)器架構(gòu)集群所使用的測試平臺為SFCS(switch free cluster system)高性能計算集群,其硬件和軟件配置如表3所示。
表3 SFCS硬件及軟件配置
本文測試全直連(見圖1)、星狀連接(見圖2)和網(wǎng)絡(luò)交換機(jī)(見圖3)3種不同的連接架構(gòu)。
圖1 全直連系統(tǒng)架構(gòu)
圖2 星狀連接系統(tǒng)架構(gòu)
圖3 網(wǎng)絡(luò)交換機(jī)系統(tǒng)架構(gòu)
其中全直連系統(tǒng)架構(gòu)為每一個計算節(jié)點都與其他節(jié)點以直接鏈接的方式進(jìn)行通訊;星狀連接系統(tǒng)架構(gòu)為以一個計算節(jié)點為中心節(jié)點,與其他計算節(jié)點連結(jié),中心節(jié)點的功能類似傳統(tǒng)網(wǎng)絡(luò)交換器;網(wǎng)絡(luò)交換機(jī)系統(tǒng)架構(gòu)為計算節(jié)點之間利用交換器進(jìn)行數(shù)據(jù)交換。為測試網(wǎng)絡(luò)帶寬對計算效能的影響,使用1 GE和10 GE 2種網(wǎng)絡(luò)帶寬進(jìn)行測試。
在MCBW-I平臺上,利用CPMD計算碳60結(jié)構(gòu)的基態(tài)能量,不同網(wǎng)絡(luò)拓?fù)浼軜?gòu)和網(wǎng)絡(luò)帶寬的計算效能差異如圖4所示。其中,縱坐標(biāo)加速比以單節(jié)點計算時間為基準(zhǔn)。由圖4可知,第一影響因素是網(wǎng)絡(luò)帶寬;第二影響因素是網(wǎng)絡(luò)拓?fù)浼軜?gòu)。
圖4 MCBW-I CPMD測試結(jié)果
當(dāng)采用1 GE網(wǎng)絡(luò)帶寬時,CPMD跨節(jié)點計算效率不理想。雖然全直連系統(tǒng)可提供較大的網(wǎng)絡(luò)帶寬(每臺節(jié)點有3條網(wǎng)絡(luò)線連接),但4節(jié)點計算僅提供2倍的加速比。
當(dāng)采用10 GE帶寬進(jìn)行4節(jié)點計算時,星狀連接和全直連系統(tǒng)架構(gòu)都提供超過3倍的加速比,效率超過80%。在節(jié)點增加時,全直連系統(tǒng)架構(gòu)較星狀連接系統(tǒng)架構(gòu)效能增加更明顯,這是由于在全直連系統(tǒng)架構(gòu)下,計算節(jié)點以直接連結(jié)方式通訊;而星狀連接系統(tǒng)架構(gòu),除中心節(jié)點,其他計算節(jié)點至少需要經(jīng)過1個計算節(jié)點才能與其他節(jié)點通訊,通信成本隨之增加。
在MCBW-I平臺上,利用VASP計算HfO2電子結(jié)構(gòu)的跨機(jī)效能如圖5所示。VASP在1 GE帶寬下的跨機(jī)平行效率比CPMD高,全直連10 GE的4節(jié)點計算加速比最高,星狀連接10 GE以微小差距排第二。值得注意的是,VASP的計算會出現(xiàn)效率超過100%的情況,這是因為加速比以單計算節(jié)點的計算時間為基準(zhǔn)。當(dāng)單計算節(jié)點內(nèi)存帶寬不足時,會出現(xiàn)如圖5所示情況。
圖5 MCBW- I VASP測試結(jié)果
為研究服務(wù)器架構(gòu)平臺在不同網(wǎng)絡(luò)拓?fù)浼軜?gòu)和網(wǎng)絡(luò)帶寬下的跨機(jī)運算情況,進(jìn)行了與圖4、圖5相同的計算。SFCS CPMD測試結(jié)果如圖6所示,與圖4的跨機(jī)效能趨勢一致,CPMD的跨機(jī)運算效能主要受到網(wǎng)絡(luò)帶寬的影響。SFCS VASP測試結(jié)果如圖7所示,全直連網(wǎng)絡(luò)拓?fù)浼軜?gòu)可有效提升1GE網(wǎng)絡(luò)帶寬下的跨機(jī)運算效率。與CPMD計算相同,網(wǎng)絡(luò)帶寬主要決定了跨機(jī)運算效率,而全直連網(wǎng)絡(luò)拓?fù)浼軜?gòu)的優(yōu)勢會在計算節(jié)點增加時出現(xiàn)。
圖6 SFCS CPMD測試結(jié)果
圖7 SFCS VASP測試結(jié)果
MCBW-II為MCBW-I的二代版,主要差異為CPU頻率由4.0 GHz 提升到4.2 GHz,內(nèi)存帶寬由2400 MHz提升到3200 MHz。CPU頻率的提升有助于提高單核的計算效能。MCBW-I和MCBW-II的計算效能測試結(jié)果如圖8、圖9所示。根據(jù)圖4、圖5的測試結(jié)果,在較少節(jié)點情況下,星狀連接系統(tǒng)架構(gòu)和全直連系統(tǒng)架構(gòu)的計算效能接近,且不同的網(wǎng)絡(luò)架構(gòu)在1 GE帶寬下效能差別不大,所以接下來的測試將以星狀連接系統(tǒng)10 GE和1 GE網(wǎng)絡(luò)交換機(jī)系統(tǒng)架構(gòu)為主。
圖8 CPMD測試結(jié)果
圖9 VASP測試結(jié)果
由圖5和圖7可知,VASP跨機(jī)運算效率出現(xiàn)超過100%的情況,上文已經(jīng)提到這現(xiàn)象與單機(jī)的內(nèi)存帶寬有關(guān)。為證明這點,在MCBW-II的一個計算節(jié)點做測試:讓一個VASP僅使用單核進(jìn)行計算,依次將相同的工作增加到4個。理想狀況下,一個計算節(jié)點擁有4個運算核心,一個節(jié)點執(zhí)行一個工作和同時執(zhí)行4個工作運算時間是一樣的。MCBW-II單節(jié)點進(jìn)行VASP模擬的運行時間如圖10所示,發(fā)現(xiàn)由于受到內(nèi)存帶寬和通信道數(shù)目的限制,同時執(zhí)行4個工作所花的計算時間僅是執(zhí)行1個工作的2.4倍。
圖10 MCBW-II單節(jié)點進(jìn)行VASP模擬的運行時間
測試結(jié)果說明了多核計算由于內(nèi)存帶寬和通信道數(shù)的限制,使得內(nèi)存和CPU的通訊時間增長,最終造成運算時間增加。SFCS單節(jié)點VASP并行計算測試結(jié)果如圖11所示。
圖11 SFCS單節(jié)點VASP并行計算測試結(jié)果
由圖11可以看出,使用5個核心進(jìn)行運算時,效能基本符合理論值,超過5個核心后,效能開始偏離理論值。由于SFCS每個計算節(jié)點具有2顆實體CPU(每顆CPU具有10個核心),除了內(nèi)存信道數(shù)目和帶寬限制,2顆CPU之間通訊的帶寬也會限制多核心的運算效率。從圖5和圖7的測試結(jié)果顯示,跨機(jī)運算可以解決單機(jī)內(nèi)存帶寬不足的限制。由圖10和圖11可知,以單計算節(jié)點的計算時間作為跨機(jī)效率的基準(zhǔn)存在問題,利用單核的計算時間作為基準(zhǔn)比較適合。
圖12 利用跨節(jié)點計算的方式有效增加內(nèi)存帶寬提升多核運算效率
圖13 MCBW-II和SFCS單節(jié)點在相同核心數(shù)下運算效能比較圖
根據(jù)以上的測試結(jié)果可知,在網(wǎng)絡(luò)帶寬足夠的情況下,采用跨機(jī)運算的方式比單機(jī)增加CPU核心數(shù)目更能有效提升計算效能。
本文通過3種不同的網(wǎng)絡(luò)架構(gòu)對2大類型計算集群進(jìn)行第一性原理計算分析,對于集群單節(jié)點性能、整體性能與網(wǎng)絡(luò)結(jié)構(gòu)及帶寬影響有了整體了解,并得出以下結(jié)論:
1)全直連系統(tǒng)架構(gòu)可在千兆帶寬時提供與交換機(jī)網(wǎng)絡(luò)架構(gòu)相同的計算性能;
2)計算量較大時,采用直連萬兆帶寬可有效提升集群整體運算性能;
3)CPMD和VASP在跨機(jī)運算時需要非常大的網(wǎng)絡(luò)帶寬,除了采用10 GE網(wǎng)絡(luò),搭配利用全直連系統(tǒng)或星狀連接系統(tǒng)的網(wǎng)絡(luò)拓?fù)浼軜?gòu)可以進(jìn)一步提升網(wǎng)絡(luò)帶寬;在第一性原理計算應(yīng)用過程中,為有效提升計算效率,可采用跨界點的并行計算方法;
4)貝奧武夫集群可利用增加計算節(jié)點數(shù)的方式增加內(nèi)存帶寬,計算效能可持續(xù)增加;服務(wù)器集群因受限內(nèi)存和CPU之間通訊的帶寬,到16核心已出現(xiàn)效能飽和的情況,對計算效能提升并不明顯。
[1] Wikipedia. Beowulf Cluster[EB/OL]. [2017-08-28]. https://en. wikipedia.org/wiki/Beowulf_cluster.
[2] Marx D, Hutter J. Ab initio molecular dynamics: basic theory and advanced methods [J]. Cambridge University Press, Aug. 2011, 307:109-153.
[3] CPMD Org. CPMD [EB/OL]. [2017-08-28]. http://www.cpmd. org/Copyright IBM Corp 2000-2017.
[4] CPMD Org. CPMD manual[EB/OL]. [2017-08-28]. http://cpmd.org/downloadable-files/nouthentication/manual_v4_0_1.pdf.
[5] Xsede.org. VASP manual [EB/OL]. [2017-08-28]. https:// www.xsede.org/wwwteragrid/archive/web/user-support/vasp_ benchmark.html.
Performance Evaluation of Different HPC Cluster Architectures by Using First Principles Calculations
Zhang Yanbin1Ng Mingyaw1Shi Yuwei1Xiao Yilin2Ren Hao2
(1. Guangzhou HPC Technology Inc. 2. Guangzhou Research Institute of O-M-E Technology)
Currently, there are many kinds of high performance computing system. According to the division of processor types, it can be simplified into two types - Beowulf PC cluster architecture and server cluster, but there were less performance evaluation studies between these two kinds of system. This paper carried out the study on their properties, with different architectures interconnect topologies and bandwidth, use the 1stprinciple software as the performance evaluation tools. The results can be useful for the HPC users in the future.
Performance Evaluation; High Performance Computing Cluster; CPMD; VASP; First Principles
張彥彬,男,1978年生,碩士,主要研究方向:熱流分析、并行計算、網(wǎng)絡(luò)拓?fù)湓O(shè)計、分布式計算、高性能計算系統(tǒng)。 E-mail: johnson.z@hpctek.com
吳民耀,男,1979年生,博士,主要研究方向:近場光學(xué),第二型半導(dǎo)體量子點的激子效應(yīng)和納米材料的瞬時結(jié)構(gòu)動力學(xué)。
石裕維,男,1993年生,本科,主要研究方向:高性能計算系統(tǒng)、并行計算、網(wǎng)絡(luò)架構(gòu)。
肖熠琳,女,1982年生,碩士,高級工程師,主要研究方向:項目資源與作業(yè)管理、并行計算。
任豪,男,1972年生,博士后,教授級高工,主要研究方向:納米陶瓷薄膜材料。
廣州市科技計劃項目(201508030009);廣東省科技計劃項目(2017A010109077)。