李小菲 鐘建軍 張彬 秦帥行 宋溫溫
摘? 要:高性能計(jì)算在科研領(lǐng)域具有廣泛的應(yīng)用和重要的地位,高校高性能計(jì)算平臺(tái)為學(xué)校學(xué)科建設(shè)的長(zhǎng)遠(yuǎn)發(fā)展提供了強(qiáng)有力的支撐條件,提升了學(xué)校的科研實(shí)力與水平,有利于未來(lái)綜合競(jìng)爭(zhēng)力的提升。文章以河北大學(xué)高性能計(jì)算平臺(tái)為例,介紹了高性能計(jì)算機(jī)平臺(tái)的建設(shè)和在科研中的應(yīng)用,并對(duì)高性能計(jì)算平臺(tái)的使用情況進(jìn)行了分析研究和建議。
關(guān)鍵詞:超級(jí)計(jì)算機(jī);高性能計(jì)算平臺(tái);計(jì)算能力
Abstracts:High performance computing (HPC) is widely used and important in scientific research,the high performance computing platform provides a strong support for the long-term development of the universitys discipline construction. It has improved the scientific research strength and level of the school,it is conducive to the promotion of comprehensive competitiveness in the future. Take the high performance computing platform of Hebei University as an example,this paper introduces the construction of high performance computer platform and its application in scientific research,the usage of High Performance Computing Platform is analyzed and suggested.
Keywords:super computer;high performance computing platform;computing power
0? 引? 言
隨著科技的發(fā)展,計(jì)算機(jī)與我們的日常工作和學(xué)習(xí)生活之間的關(guān)系變得更加密切。在大數(shù)據(jù)的背景下,高性能計(jì)算(High performance computing,HPC),又稱為超級(jí)計(jì)算,是計(jì)算機(jī)科學(xué)重要的前沿性分支,也大量地投入到對(duì)大數(shù)據(jù)的應(yīng)用當(dāng)中[1]。超算即超級(jí)計(jì)算機(jī),是指由數(shù)千甚至更多處理器組成、能計(jì)算普通計(jì)算機(jī)和服務(wù)器不能完成的大型復(fù)雜課題的計(jì)算機(jī),超級(jí)計(jì)算機(jī)是計(jì)算機(jī)中功能最強(qiáng)、運(yùn)算速度最快、存儲(chǔ)容量最大的一類計(jì)算機(jī),被譽(yù)為“計(jì)算機(jī)中的珠穆朗瑪峰”,已成為世界各國(guó)爭(zhēng)奪的一個(gè)戰(zhàn)略制高點(diǎn)[2]。超級(jí)計(jì)算機(jī)多用于國(guó)家高科技領(lǐng)域和尖端技術(shù)研究,是國(guó)家科技發(fā)展水平和創(chuàng)新能力的重要標(biāo)志。
超級(jí)計(jì)算機(jī)被稱為“國(guó)家重器”,屬于國(guó)家戰(zhàn)略高技術(shù)領(lǐng)域,是世界各國(guó)競(jìng)相角逐的科技最高點(diǎn)。超級(jí)計(jì)算機(jī)應(yīng)用場(chǎng)合很多,大多都是高精端領(lǐng)域,比如天氣預(yù)測(cè)、核爆炸模擬、飛機(jī)飛行計(jì)算、彈道計(jì)算、各種場(chǎng)合的3D建模等等。隨著信息時(shí)代的來(lái)臨,目前最流行的大數(shù)據(jù)概念,再結(jié)合云計(jì)算,超級(jí)計(jì)算機(jī)的應(yīng)用將越來(lái)越廣,甚至深入商業(yè)領(lǐng)域[3]。超級(jí)計(jì)算機(jī)作為一個(gè)國(guó)家科技實(shí)力的體現(xiàn)和科技發(fā)展的基礎(chǔ)支撐環(huán)境,受到全球超級(jí)大國(guó)的重視,各國(guó)都在全力發(fā)展本國(guó)的超級(jí)計(jì)算機(jī)。
我國(guó)《國(guó)家重點(diǎn)專項(xiàng)規(guī)劃之——“十三五”國(guó)家科技創(chuàng)新規(guī)劃》中明確提出“發(fā)展先進(jìn)計(jì)算技術(shù),重點(diǎn)加強(qiáng)E級(jí)(百億億次級(jí))計(jì)算、云計(jì)算、量子計(jì)算、人本計(jì)算、異構(gòu)計(jì)算、智能計(jì)算、機(jī)器學(xué)習(xí)等技術(shù)研發(fā)及應(yīng)用”。[1]
截止到2019年11月世界超級(jí)計(jì)算機(jī)排名上,中國(guó)的神威·太湖之光(Sunway TaihuLight)全球排名第三,其最大算力為9.301 459 388億億次每秒,峰值算力為12.543 590 4億億次每秒;中國(guó)的天河-2A(Tianhe-2A)排名第四,其最大算力為6.144 450 0億億次每秒,峰值算力為10.067 866 4億億次每秒,如表1所示。
當(dāng)前,高性能計(jì)算已經(jīng)成為解決國(guó)家發(fā)展面臨的重大挑戰(zhàn)性問(wèn)題和科技創(chuàng)新的必備工具。計(jì)算科學(xué)領(lǐng)域高度依賴于高性能計(jì)算與科學(xué)大數(shù)據(jù)、深度學(xué)習(xí)之間的深度融合。近年來(lái),人工智能的突破正是建立在超級(jí)計(jì)算機(jī)計(jì)算能力突飛猛進(jìn)的發(fā)展和深度學(xué)習(xí)算法的成功結(jié)合上。發(fā)展以超級(jí)計(jì)算機(jī)為支撐平臺(tái)的先進(jìn)計(jì)算系統(tǒng),將進(jìn)一步推動(dòng)高性能計(jì)算、智能計(jì)算和大數(shù)據(jù)的深度融合與創(chuàng)新發(fā)展。
1? 高校高性能計(jì)算建設(shè)現(xiàn)狀
近年來(lái),國(guó)家對(duì)高性能計(jì)算的重視程度不斷提升,高性能計(jì)算在我國(guó)很多領(lǐng)域都取得了巨大發(fā)展,高校作為科技創(chuàng)新的重要基地,對(duì)高性能計(jì)算的關(guān)注日益提高,眾多高校都投入建設(shè)了校級(jí)高性能計(jì)算平臺(tái),強(qiáng)大的計(jì)算能力極大地提升了學(xué)??蒲泄ぷ鞯哪芰退剑龠M(jìn)了相關(guān)教學(xué)、科研工作的開展,高性能計(jì)算已成為高校教學(xué)、科研創(chuàng)新的一個(gè)基本手段。[4]
1.1? 本校高性能計(jì)算平臺(tái)介紹
河北大學(xué)高性能計(jì)算平臺(tái)于2014年9月投入使用,總投資1 200余萬(wàn)元。系統(tǒng)包括計(jì)算刀片節(jié)點(diǎn)110片、胖節(jié)點(diǎn)18臺(tái)、管理節(jié)點(diǎn)2臺(tái)、可視化節(jié)點(diǎn)2臺(tái)、GPU節(jié)點(diǎn)4臺(tái)、MIC節(jié)點(diǎn)1臺(tái)、并行存儲(chǔ)3臺(tái)、CPU核數(shù)大于4 000個(gè)。計(jì)算能力可達(dá)119.7萬(wàn)億次/秒(TFLOPS)。存儲(chǔ)裸容量182.88 TB,聚合帶寬2.4 GB/s,全系統(tǒng)采用56 Gbps FDR InfiniBand線速互連,如圖1所示。
作為服務(wù)于全校性的大型共享平臺(tái),高性能計(jì)算中心規(guī)模大,獲得了學(xué)校和曙光廠商的重點(diǎn)支持。此外,高性能計(jì)算中心有專職管理人員負(fù)責(zé),集群的運(yùn)行狀態(tài)比較穩(wěn)定。
1.2? 高性能計(jì)算平臺(tái)的設(shè)備配置
高性能計(jì)算系統(tǒng)內(nèi)部互連帶寬56 Gbps,芯片傳輸延遲100 ns;全系統(tǒng)內(nèi)存容量8.7 TB,在線共享存儲(chǔ)磁盤容量183 TB;最大運(yùn)行功耗為90 kW;機(jī)柜數(shù)量16個(gè),如表2所示。
1.3? 高性能計(jì)算平臺(tái)網(wǎng)絡(luò)拓?fù)鋱D
集群采用全新的Gridview 3.2管理調(diào)度系統(tǒng),集群拓?fù)浣Y(jié)構(gòu)如圖2所示。
1.4? 高性能計(jì)算平臺(tái)安裝的隊(duì)列
到目前為止,平臺(tái)上總共安裝有15個(gè)隊(duì)列,分別是blade_s1、blade_s2、balde_s3、blade_x、flat_amd、flat_intel、flat_ls、matlab、msi_blade、msi_flat、queue_gpu、queue_mic、temporary_blade、test_blade、test_flat,隊(duì)列上的作業(yè)運(yùn)行良好。
1.5? 高性能計(jì)算機(jī)平臺(tái)上安裝的軟件
目前,集群現(xiàn)已安裝并能正常使用的軟件包含Guessian、VASP、WIEN 2k、Cestep、RAxML、Intel Fortran、Material Studio、Trinity、NAMD、Siesta、MATLAB、TensorFlow、GROMACS、ANSYS、BLAST、VSim、Beagle、BioStack、MrBayesMatlab等,這些軟件已經(jīng)可以滿足平臺(tái)用戶的需求。
2? 高性能計(jì)算平臺(tái)運(yùn)行情況
到目前為止,集群共運(yùn)行3萬(wàn)多個(gè)作業(yè),累計(jì)使用機(jī)時(shí)為2 783.375 3萬(wàn)小時(shí),作業(yè)使用核數(shù)總計(jì)為498萬(wàn),輸出數(shù)據(jù)均在良好范圍內(nèi),運(yùn)行狀態(tài)正常。
2.1? 高性能計(jì)算平臺(tái)的申請(qǐng)使用情況
現(xiàn)平臺(tái)使用單位中包括電子信息工程學(xué)院、生命科學(xué)學(xué)院、物理科學(xué)與技術(shù)學(xué)院、化學(xué)與環(huán)境科學(xué)學(xué)院、質(zhì)量技術(shù)監(jiān)督學(xué)院、藥學(xué)院、計(jì)算機(jī)教學(xué)部、建筑工程學(xué)院、網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院和藥物化學(xué)與分子診斷教育部重點(diǎn)實(shí)驗(yàn)室。
截止到2019年底,全校共有43個(gè)課題組申請(qǐng)使用高性能計(jì)算平臺(tái),覆蓋63個(gè)科研項(xiàng)目,其中國(guó)家級(jí)科研項(xiàng)目38個(gè),省級(jí)科研項(xiàng)目22個(gè),完結(jié)12個(gè)科研項(xiàng)目。
2.2? 高性能計(jì)算平臺(tái)運(yùn)行維護(hù)情況
2.2.1? 集群總覽
以下對(duì)2016年度至2019年度平臺(tái)的運(yùn)行情況進(jìn)行了分析,其中:2016年度共完成21個(gè)用戶的26 222個(gè)作業(yè),累計(jì)使用機(jī)時(shí)為554.704 3萬(wàn)小時(shí);2017年度共完成27個(gè)用戶的64 688個(gè)作業(yè),累計(jì)使用機(jī)時(shí)為580.454 3萬(wàn)小時(shí),平均作業(yè)機(jī)時(shí)為89.73小時(shí)。2018年度共完成39個(gè)用戶的84 078個(gè)作業(yè),累計(jì)使用機(jī)時(shí)為754.047 2萬(wàn)小時(shí),平均作業(yè)機(jī)時(shí)為89.68小時(shí),如表3所示。
2017相比2016年機(jī)時(shí)增長(zhǎng)4.64%,作業(yè)數(shù)增長(zhǎng)146.69%;2018相比2017年機(jī)時(shí)增長(zhǎng)29.91%,作業(yè)數(shù)增長(zhǎng)29.97%,2019年度共完成49個(gè)用戶的73 415個(gè)作業(yè),累計(jì)使用機(jī)時(shí)為894.169 5萬(wàn)小時(shí),平均作業(yè)機(jī)時(shí)為121.80小時(shí)。2019相比2018年機(jī)時(shí)增長(zhǎng)18.58%,作業(yè)數(shù)減少12.68%,如圖3、圖4所示。
2.2.2? 隊(duì)列統(tǒng)計(jì)情況
以2019年度為例,作業(yè)隊(duì)列統(tǒng)計(jì)如下:
(1)隊(duì)列blade_s1共完成了8 509個(gè)作業(yè),占作業(yè)總數(shù)的11.59%,使用機(jī)時(shí)為60.703 4萬(wàn)小時(shí),占總機(jī)時(shí)的6.79%;
(2)隊(duì)列blade_s2共完成了6 858個(gè)作業(yè),占作業(yè)總數(shù)的9.34%,使用機(jī)時(shí)為112.690 2萬(wàn)小時(shí),占總機(jī)時(shí)的12.60%;
(3)隊(duì)列blade_s3共完成了3 152個(gè)作業(yè),占作業(yè)總數(shù)的4.29%,使用機(jī)時(shí)為58.248 2萬(wàn)小時(shí),占總機(jī)時(shí)的6.51%;
(4)隊(duì)列blade_x共完成了26 546個(gè)作業(yè),占作業(yè)總數(shù)的36.16%,使用機(jī)時(shí)為131.996 9萬(wàn)小時(shí),占總機(jī)時(shí)的14.76%;
(5)隊(duì)列flat_amd共完成了12 730個(gè)作業(yè),占作業(yè)總數(shù)的17.34%,使用機(jī)時(shí)為320.708 0萬(wàn)小時(shí),占總機(jī)時(shí) 的35.87%;
(6)隊(duì)列matlab共完成了58個(gè)作業(yè),占作業(yè)總數(shù)的0.08%,使用機(jī)時(shí)為0.000 5萬(wàn)小時(shí),占總機(jī)時(shí)的0.00%;
(7)隊(duì)列msi_blade共完成了1 268個(gè)作業(yè),占作業(yè)總數(shù)的1.73%,使用機(jī)時(shí)為40.627 6萬(wàn)小時(shí),占總機(jī)時(shí)的4.54%;
(8)隊(duì)列msi_flat共完成了179個(gè)作業(yè),占作業(yè)總數(shù)的0.24%,使用機(jī)時(shí)為4.414 3萬(wàn)小時(shí),占總機(jī)時(shí)的0.49%;
(9)隊(duì)列queue_gpu共完成了6個(gè)作業(yè),占作業(yè)總數(shù)的0.01%,使用機(jī)時(shí)為0.000 2萬(wàn)小時(shí),占總機(jī)時(shí)的0.00%;
(10)隊(duì)列temporary_blade共完成了9 070個(gè)作業(yè),占作業(yè)總數(shù)的12.35%,使用機(jī)時(shí)為139.892 9萬(wàn)小時(shí),占總機(jī)時(shí)的15.65%;
(11)隊(duì)列test_blade共完成了3 811個(gè)作業(yè),占作業(yè)總數(shù)的5.19%,使用機(jī)時(shí)為16.075 0萬(wàn)小時(shí),占總機(jī)時(shí)的1.80%;
(12)隊(duì)列test_flat共完成了1 228個(gè)作業(yè),占作業(yè)總數(shù)的1.67%,使用機(jī)時(shí)為8.812 4萬(wàn)小時(shí),占總機(jī)時(shí)的0.99%;如圖5、圖6所示。
2.2.3? 高性能計(jì)算平臺(tái)維護(hù)情況
2016年度將Gridview升級(jí)為全新的Gridview 3.2集群管理調(diào)度系統(tǒng),完成了Gridview相關(guān)Portal安裝。新增MATLAB,TensorFlow等軟件的安裝工作。并且根據(jù)高性能計(jì)算平臺(tái)運(yùn)行情況,結(jié)合使用者的反映情況和意見(jiàn),對(duì)高性能計(jì)算平臺(tái)進(jìn)行了資源管理調(diào)配和清理維護(hù)工作,對(duì)原空閑模式期間的隊(duì)列以及任務(wù)配額進(jìn)行了調(diào)整,合理分配了用戶的作業(yè)數(shù)、使用核數(shù)以及可用隊(duì)列。
2017年度,本中心與曙光公司簽訂合同,在超算集群上安裝針對(duì)高性能計(jì)算機(jī)的專業(yè)化監(jiān)控運(yùn)維平臺(tái)EasyOP,實(shí)現(xiàn)了7×24小時(shí)全生命周期SAAS服務(wù)。立體化IT資產(chǎn)監(jiān)控,從設(shè)備、系統(tǒng)、應(yīng)用等多個(gè)方面思考、深入分析,精心制定的監(jiān)控指標(biāo)與運(yùn)維流程,可以全面反映超算集群運(yùn)行指數(shù)和健康狀態(tài),并能夠使用大數(shù)據(jù)平臺(tái)在線分析集群性能,探測(cè)隱患。
2.3? 取得的科研成果
我校高性能計(jì)算平臺(tái)自2014年投入使用以來(lái),整體運(yùn)行穩(wěn)定,截止到2019年底,共有32位教師基于高性能計(jì)算平臺(tái)的支持取得了研究成果,其中發(fā)表學(xué)術(shù)論文SCI有122篇,核心19篇,取得發(fā)明專利15個(gè),其他期刊9篇,省部級(jí)獎(jiǎng)3項(xiàng)。
高性能計(jì)算平臺(tái)為我??蒲屑敖虒W(xué)人員免費(fèi)提供計(jì)算服務(wù)以及平臺(tái)的使用,合理、高效地利用資源為我校的教學(xué)科研和學(xué)科建設(shè)服務(wù)提供了支持,保障我校承擔(dān)的國(guó)家級(jí)重大科研項(xiàng)目的計(jì)算需求。
3? 高性能計(jì)算平臺(tái)在管理和運(yùn)行中的建議
(1)建立專業(yè)的管理和運(yùn)行團(tuán)隊(duì)。專業(yè)技術(shù)隊(duì)伍是設(shè)備使用和維護(hù)的核心力量,是平臺(tái)日常運(yùn)行的樞紐和保障。高性能計(jì)算平臺(tái),不管是在軟件的應(yīng)用開發(fā),硬件的運(yùn)行、維護(hù),軟件與應(yīng)用的擴(kuò)展、開發(fā),資源的管理、調(diào)度,計(jì)算模型、方法的優(yōu)化等,都需要一個(gè)專業(yè)的團(tuán)隊(duì)。部分平臺(tái)用戶不了解高性能計(jì)算相關(guān)的技術(shù)操作,而負(fù)責(zé)平臺(tái)運(yùn)行的技術(shù)人員對(duì)學(xué)科的了解不夠深入,極大地阻礙了高性能計(jì)算的應(yīng)用。
(2)加大推廣力度,提高平臺(tái)使用效率。我們應(yīng)當(dāng)將當(dāng)前領(lǐng)域內(nèi)的重大熱點(diǎn)引入校園,定期組織有關(guān)的學(xué)術(shù)報(bào)告,對(duì)于E級(jí)計(jì)算、云計(jì)算、量子計(jì)算、人本計(jì)算、異構(gòu)計(jì)算、智能計(jì)算、機(jī)器學(xué)習(xí)這些新興的熱點(diǎn)和技術(shù),既做到讓學(xué)生對(duì)新技術(shù)有所了解,又推廣了高性計(jì)算平臺(tái)的使用。
應(yīng)當(dāng)組織學(xué)校師生積極參加高性能計(jì)算大賽,在參與比賽中學(xué)習(xí)、提高,提升創(chuàng)新實(shí)踐能力,推動(dòng)人才培養(yǎng),豐富校園學(xué)術(shù)氛圍。
平臺(tái)中的部分用戶為非計(jì)算機(jī)專業(yè)人員,對(duì)高性能計(jì)算和軟件的使用不熟悉,在使用過(guò)程中遇到了很大的障礙?;谶@種情況,我們應(yīng)當(dāng)有計(jì)劃、有針對(duì)性地開展培訓(xùn)和講座,幫助用戶掌握高性能計(jì)算所需的專業(yè)知識(shí)。既節(jié)約了高性能計(jì)算平臺(tái)管理人員的時(shí)間,又能達(dá)到很好的培訓(xùn)效果。
(3)與廠商協(xié)調(diào)安排管理人員到其他兄弟單位學(xué)習(xí),借鑒其他學(xué)校的管理模式及成功案例,并完善高性能計(jì)算平臺(tái)的準(zhǔn)入準(zhǔn)出規(guī)范,全面開展高性能計(jì)算平臺(tái)的管理工作。
(4)高性能計(jì)算平臺(tái)中部分軟件安裝使用的參數(shù)仍需優(yōu)化調(diào)整,應(yīng)避免個(gè)別使用者的操作不規(guī)范影響系統(tǒng)總體健康狀態(tài),減少額外的系統(tǒng)開銷和資源浪費(fèi)。
4? 結(jié)? 論
高校作為國(guó)家科技創(chuàng)新的重要基地,紛紛建立各自的高性能計(jì)算平臺(tái),以提升學(xué)校的科研實(shí)力與水平。本文介紹了河北大學(xué)高性能計(jì)算平臺(tái)的建設(shè)情況,并對(duì)高性能計(jì)算平臺(tái)的使用情況進(jìn)行了分析研究,總結(jié)了高性能計(jì)算平臺(tái)在使用過(guò)程中存在的問(wèn)題,并提出了相應(yīng)的合理化建議,以提高平臺(tái)建設(shè)的有效性和使用效益。
參考文獻(xiàn):
[1] 歷軍.中國(guó)超算產(chǎn)業(yè)發(fā)展現(xiàn)狀分析 [J].中國(guó)科學(xué)院院刊,2019,34(6):617-624.
[2] 張楠.圖解全球超算500強(qiáng):中國(guó)占44%!包攬制造商前三 [EB/OL].(2019-06-21).https://baijiahao.baidu.com/s?id=1636910254149176482&wfr=spider&for=pc.
[3] 失落代號(hào).全球最新超級(jí)計(jì)算機(jī)排名,中國(guó)痛失冠軍,第一名是美國(guó)的“頂點(diǎn)” [EB/OL].(2020-01-21).https://baijiahao.baidu.com/s?id=1656255536276795466&wfr=spider&for=pc.
[4] 荊明偉,周勇義,雷奕安.校級(jí)高性能計(jì)算公共服務(wù)平臺(tái)的建設(shè)困局及思考建議 [J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(S1):304-308.
作者簡(jiǎn)介:李小菲(1979.12—),女,漢族,河北保定人,工程師,碩士,研究方向:網(wǎng)絡(luò)安全,高性能計(jì)算。