張 焱, 鄧伯軍, 王 勤
(南京航空航天大學(xué)a.信息化處;b.馬克思主義學(xué)院;c.通用航空飛行科室,南京 210016)
隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)信息爆炸式增長(zhǎng),各領(lǐng)域研究問(wèn)題的計(jì)算量也大幅提升[1],科學(xué)研究越來(lái)越依賴(lài)于高性能計(jì)算資源[2]。2022 年國(guó)務(wù)院發(fā)布的《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》文件中就曾明確指出,要加快構(gòu)建算力、算法、數(shù)據(jù)、應(yīng)用資源協(xié)同的全國(guó)一體化數(shù)據(jù)中心體系,推進(jìn)云網(wǎng)協(xié)同發(fā)展,提升數(shù)據(jù)中心跨網(wǎng)絡(luò)、跨地域的數(shù)據(jù)交互能力。
科學(xué)計(jì)算已經(jīng)成為與理論研究和科學(xué)實(shí)驗(yàn)并列的第3 種科學(xué)研究方法[3]。高性能計(jì)算(High Performance Computing,HPC)作為一種由數(shù)千甚至更多處理器組成的能提供高響應(yīng)效率的并行處理系統(tǒng),能計(jì)算普通計(jì)算機(jī)和服務(wù)器不能完成的大型復(fù)雜數(shù)據(jù)運(yùn)算[4],是開(kāi)展科學(xué)計(jì)算的主要基礎(chǔ)設(shè)施,是國(guó)家科技發(fā)展水平和創(chuàng)新能力的重要標(biāo)志。如高性能計(jì)算能以極低的成本模擬高溫、高壓以及強(qiáng)磁場(chǎng)等極端環(huán)境下研究對(duì)象的變化,反復(fù)運(yùn)行來(lái)獲取實(shí)驗(yàn)全過(guò)程、全時(shí)空的變化信息,并對(duì)各種條件下的獲得所有數(shù)據(jù)進(jìn)行比較,這些都是真實(shí)實(shí)驗(yàn)無(wú)法達(dá)到或?qū)嶒?yàn)代價(jià)過(guò)于昂貴而被認(rèn)為不值得的[5]。
高校作為科學(xué)研究的主力軍之一,要建成世界一流大學(xué),關(guān)鍵的一條標(biāo)準(zhǔn)就是科研成果和學(xué)術(shù)聲譽(yù)。商業(yè)上的計(jì)算需求,有各種各樣的商業(yè)解決方案可以滿(mǎn)足,但高??蒲泄ぷ骱芏嗾也坏礁m合商業(yè)云計(jì)算方案,難以馬上落地成技術(shù)。因此,這時(shí)學(xué)校如果有超算平臺(tái),就能支持很多基礎(chǔ)科研開(kāi)展,實(shí)施起來(lái)更方便靈活。
我校作為一所包含理、工、管、經(jīng)、哲、法、文、藝等多學(xué)科協(xié)調(diào)發(fā)展的綜合研究型大學(xué)[6],其中,理、工等主要學(xué)科對(duì)高性能計(jì)算有著迫切需求[7],特別是在航空航天、動(dòng)力工程、機(jī)械設(shè)計(jì)、電氣工程、電子信息、材料科學(xué)、人工智能以及數(shù)理分析等學(xué)科領(lǐng)域。目前有多個(gè)科研團(tuán)隊(duì)承擔(dān)著國(guó)家自然科學(xué)基金和軍事攻關(guān)等研究項(xiàng)目,這都依賴(lài)于高性能計(jì)算平臺(tái)來(lái)承擔(dān)海量的計(jì)算任務(wù)[6]。
高校不少課題組均擁有一定數(shù)量的計(jì)算機(jī),但這些計(jì)算機(jī)由各單位獨(dú)立管理與使用,缺乏專(zhuān)門(mén)的機(jī)房及維護(hù)人員[5],導(dǎo)致師生不僅需專(zhuān)注于科研還需考慮機(jī)房基礎(chǔ)設(shè)施(如空調(diào)、配電等)建設(shè)和儀器正常運(yùn)行;此外,分散配置的計(jì)算機(jī)缺乏資源共享,導(dǎo)致多數(shù)設(shè)備重復(fù)購(gòu)置,沒(méi)有科學(xué)合理地利用資源,投資效益高。
基于以上情況,建設(shè)滿(mǎn)足高校學(xué)科發(fā)展的高性能計(jì)算平臺(tái),以“服務(wù)用戶(hù)”為理念,充分發(fā)揮集群性能,不斷探索平臺(tái)在建設(shè)和管理領(lǐng)域的需求與創(chuàng)新,具有舉足輕重的作用。
隨著高性能計(jì)算需求的增加以及國(guó)家、政府、科研機(jī)構(gòu)等對(duì)科學(xué)計(jì)算的大力投入,各地的超算平臺(tái)如雨后春筍一般蓬勃發(fā)展。相比于公共超算平臺(tái)通用性強(qiáng)、易于擴(kuò)展的優(yōu)點(diǎn),高校高性能計(jì)算平臺(tái)在數(shù)據(jù)傳輸速率、溝通交互成本以及數(shù)據(jù)安全可控等方面均具有其獨(dú)特的優(yōu)勢(shì)。
(1)數(shù)據(jù)傳輸效率高。高校校園網(wǎng)絡(luò)環(huán)境良好,數(shù)據(jù)連接系統(tǒng)完善。隨著信息化水平的提升以及學(xué)校對(duì)信息化的投入,多數(shù)高?;谝恍6嗟囟嘈^(qū)的辦學(xué)格局,在各校區(qū)之間實(shí)現(xiàn)全光網(wǎng)絡(luò)互聯(lián),校園主要區(qū)域?qū)崿F(xiàn)F5G與WiFi6 網(wǎng)絡(luò)全覆蓋,進(jìn)一步提升網(wǎng)絡(luò)的實(shí)時(shí)性和覆蓋度。其中,我校在各學(xué)院建立計(jì)算室與高性能計(jì)算平臺(tái)直連,并通過(guò)物聯(lián)網(wǎng)技術(shù)及支持海量設(shè)備鏈接的5G網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)各設(shè)備的高效管理,能提供精準(zhǔn)的資源覆蓋,實(shí)現(xiàn)快速接入。
(2)溝通交互成本低。高校高性能計(jì)算平臺(tái)建設(shè)的出發(fā)點(diǎn)是服務(wù)師生,助力科學(xué)研究與人才培養(yǎng),因此通常設(shè)有專(zhuān)門(mén)的管理服務(wù)中心,聚焦用戶(hù)具體業(yè)務(wù)而非平臺(tái)本身。校內(nèi)師生可直接與管理人員進(jìn)行交流,以期平臺(tái)提供差異化服務(wù)。同時(shí)在作業(yè)運(yùn)行期間,任何與平臺(tái)有關(guān)的問(wèn)題均可直接向管理人員反映,溝通交互成本低,應(yīng)急措施快速。
(3)數(shù)據(jù)安全可控。高校信息系統(tǒng)安全穩(wěn)定,網(wǎng)絡(luò)安全管理制度體系完善,用戶(hù)權(quán)限管理嚴(yán)格,任何使用平臺(tái)的校內(nèi)用戶(hù)均需與校內(nèi)統(tǒng)一身份認(rèn)證平臺(tái)對(duì)接,數(shù)字校園、智慧校園的開(kāi)展,有效保障了數(shù)據(jù)的機(jī)密性和完整性,數(shù)據(jù)安全可靠。
為支持學(xué)校“雙一流”建設(shè),保障學(xué)校人才培養(yǎng)、科學(xué)研究、學(xué)科建設(shè)等計(jì)算服務(wù)需求,自2018 年開(kāi)始規(guī)劃建設(shè)高性能計(jì)算平臺(tái)。截至2022 年,平臺(tái)已陸續(xù)投入使用多套集群,現(xiàn)有計(jì)算總核心數(shù)達(dá)18 996 個(gè),峰值計(jì)算能力為3Pflops,存儲(chǔ)容量達(dá)3PB。集群系統(tǒng)架構(gòu)如圖1 和圖2 所示:
圖2 高性能計(jì)算集群二期系統(tǒng)架構(gòu)
基于高校高性能計(jì)算平臺(tái)的優(yōu)勢(shì),為進(jìn)一步提升平臺(tái)的服務(wù)支撐能力,吸引校內(nèi)用戶(hù)廣泛使用,保障平臺(tái)穩(wěn)定、安全、高效運(yùn)行。學(xué)校利用信息化手段,從管理、技術(shù)、服務(wù)以及合作體系4 個(gè)方面出發(fā),進(jìn)一步探索平臺(tái)協(xié)同化建設(shè)管理模式。
管理制度體系建設(shè)是高校高性能計(jì)算平臺(tái)開(kāi)放共享的基礎(chǔ)性、長(zhǎng)期性工作,需要與高校學(xué)科發(fā)展規(guī)劃和文化價(jià)值理念相融合,隨著平臺(tái)發(fā)展不斷進(jìn)行完善與修訂,持續(xù)進(jìn)行優(yōu)化。
高性能計(jì)算中心制定了“南京航空航天大學(xué)高性能計(jì)算平臺(tái)服務(wù)管理辦法”“南京航空航天大學(xué)高性能計(jì)算中心機(jī)房安全管理規(guī)定”“高性能計(jì)算平臺(tái)用戶(hù)使用手冊(cè)”等一系列規(guī)章制度來(lái)規(guī)范平臺(tái)的開(kāi)放政策和使用模式[6]。建立“產(chǎn)出導(dǎo)向、鼓勵(lì)創(chuàng)新”的激勵(lì)機(jī)制,制定“平臺(tái)共享實(shí)施細(xì)則”來(lái)擴(kuò)展平臺(tái)覆蓋范圍,提高平臺(tái)利用效率,鼓勵(lì)用戶(hù)產(chǎn)出優(yōu)質(zhì)成果。如設(shè)立青年教師專(zhuān)項(xiàng)來(lái)為符合要求的青年教師提供免費(fèi)機(jī)時(shí)支持,緩解青年教師科研經(jīng)費(fèi)壓力,幫助青年教師成長(zhǎng);設(shè)立實(shí)踐教學(xué)專(zhuān)項(xiàng),滿(mǎn)足相關(guān)課程的實(shí)踐需求,助力教學(xué)實(shí)施;設(shè)立平臺(tái)共建專(zhuān)項(xiàng),鼓勵(lì)用戶(hù)研究平臺(tái)性能優(yōu)化技術(shù),提升平臺(tái)服務(wù)水平;設(shè)立成果獎(jiǎng)勵(lì)專(zhuān)項(xiàng),為依托平臺(tái)開(kāi)展高質(zhì)量研究、產(chǎn)出高質(zhì)量成果的用戶(hù)提供機(jī)時(shí)獎(jiǎng)勵(lì)。
為保證平臺(tái)7 ×24 h 持續(xù)穩(wěn)定運(yùn)行,機(jī)房配有一整套智能動(dòng)環(huán)管理系統(tǒng)[8],包括:溫濕度監(jiān)控、配電間監(jiān)控、漏水監(jiān)測(cè)、空調(diào)監(jiān)控、短信提醒、雷電防控、消防報(bào)警等。并利用信息化手段,與管理人員通信設(shè)備相連,對(duì)機(jī)房存在的故障問(wèn)題及時(shí)發(fā)送預(yù)警信息,提醒管理人員進(jìn)行相應(yīng)處理,實(shí)現(xiàn)疫情常態(tài)化防控下的遠(yuǎn)程機(jī)房監(jiān)控。圖3、4 分別為高性能計(jì)算平臺(tái)的動(dòng)環(huán)管理系統(tǒng)和實(shí)時(shí)監(jiān)控系統(tǒng)。
圖3 高性能計(jì)算平臺(tái)動(dòng)環(huán)管理系統(tǒng)
圖4 高性能計(jì)算平臺(tái)實(shí)時(shí)監(jiān)控系統(tǒng)
平臺(tái)堅(jiān)持“客戶(hù)思維”,簡(jiǎn)化用戶(hù)開(kāi)戶(hù)、技術(shù)協(xié)議簽訂以及資源申請(qǐng)流程,改紙質(zhì)為線(xiàn)上辦事大廳辦理[9],讓“數(shù)據(jù)多跑路,師生少跑腿”,提高平臺(tái)使用效率,降低管理成本。技術(shù)協(xié)議簽署流程如圖5 所示,平臺(tái)開(kāi)放共享專(zhuān)項(xiàng)申請(qǐng)流程如圖6 所示。
圖5 技術(shù)協(xié)議簽署流程
圖6 平臺(tái)開(kāi)放共享專(zhuān)項(xiàng)申請(qǐng)流程
除此之外,平臺(tái)技術(shù)人員還創(chuàng)新性的使用圖形化管理系統(tǒng),讓用戶(hù)無(wú)須撰寫(xiě)復(fù)雜的腳本即可提交和運(yùn)行作業(yè),方便用戶(hù)使用。同時(shí)不斷升級(jí)動(dòng)態(tài)資源調(diào)度技術(shù),對(duì)項(xiàng)目周期短,社會(huì)價(jià)值高的任務(wù)優(yōu)先提供資源;對(duì)項(xiàng)目周期長(zhǎng),平臺(tái)性能要求低的任務(wù)降低作業(yè)優(yōu)先級(jí),保證用戶(hù)公平合理地共享集群資源,提高系統(tǒng)利用率和吞吐率[10]。
高性能計(jì)算平臺(tái)與其他儀器設(shè)備不同,沒(méi)有固定的操作規(guī)程,用戶(hù)不同,具體需求則不同[11]。平臺(tái)管理人員根據(jù)用戶(hù)類(lèi)別進(jìn)行細(xì)分,創(chuàng)辦難度不等的培訓(xùn)班,撰寫(xiě)對(duì)應(yīng)《用戶(hù)使用手冊(cè)》[6],提供更精準(zhǔn)的差異化服務(wù)。針對(duì)剛開(kāi)始接觸平臺(tái)的新用戶(hù)加強(qiáng)宣傳、培訓(xùn)與服務(wù),幫助其盡快掌握一些高性能計(jì)算的基礎(chǔ)知識(shí)[12];針對(duì)科研產(chǎn)出率高的用戶(hù)進(jìn)行重點(diǎn)服務(wù)與支持,甚至特別定制適合用戶(hù)使用的操作系統(tǒng)[12];針對(duì)自己開(kāi)發(fā)軟件的用戶(hù)提供深入開(kāi)發(fā)幫扶[12],鼓勵(lì)中心技術(shù)人員積極參與,協(xié)同創(chuàng)新。
平臺(tái)還定期與用戶(hù)組織交流會(huì),了解用戶(hù)在使用過(guò)程中所遇難題及期望平臺(tái)所能提供的服務(wù),分析撰寫(xiě)“用戶(hù)常見(jiàn)問(wèn)題與解答”等技術(shù)文檔[6],幫助用戶(hù)了解高性能計(jì)算的專(zhuān)業(yè)知識(shí),并逐步升級(jí)平臺(tái)性能,提供更優(yōu)質(zhì)的服務(wù)。
為培養(yǎng)具有較高學(xué)術(shù)水平和創(chuàng)新能力的高性能計(jì)算人才,提高后備儲(chǔ)蓄力量,平臺(tái)與研究高性能計(jì)算相關(guān)的課題組和學(xué)院展開(kāi)合作,為他們免費(fèi)提供場(chǎng)地、實(shí)驗(yàn)數(shù)據(jù)和設(shè)備資源,組成創(chuàng)新開(kāi)發(fā)團(tuán)隊(duì),共同探索資源調(diào)度方法以及軟硬件協(xié)同配置方案。同時(shí),在團(tuán)隊(duì)老師的帶領(lǐng)下共同申報(bào)國(guó)家、省部級(jí)重大項(xiàng)目,尋找最佳平臺(tái)建設(shè)方案,達(dá)到合作共贏(yíng),協(xié)同發(fā)展的新態(tài)勢(shì)。
同時(shí),平臺(tái)管理人員還將當(dāng)前領(lǐng)域內(nèi)的重大熱點(diǎn)引入校園,定期組織有關(guān)的學(xué)術(shù)報(bào)告,讓學(xué)生對(duì)新興熱點(diǎn)技術(shù)有所了解[13];開(kāi)展高性能計(jì)算大賽,鼓勵(lì)全校師生積極參與[14],豐富校園學(xué)術(shù)氛圍,推廣平臺(tái)使用;在滿(mǎn)足校內(nèi)用戶(hù)服務(wù)需求的前提下,與大規(guī)模超算平臺(tái)互動(dòng),實(shí)現(xiàn)資源的有效整合,從資源池中獲取支持,保證高校計(jì)算平臺(tái)的可持續(xù)發(fā)展,自我造血;加強(qiáng)與兄弟院校、研究所、企業(yè)之間的交流合作[6],充分發(fā)揮各專(zhuān)業(yè)聯(lián)合優(yōu)勢(shì),實(shí)現(xiàn)“產(chǎn)、教、學(xué)、研”多元一體化共享平臺(tái)建設(shè),為國(guó)家和地方經(jīng)濟(jì)提供計(jì)算服務(wù)。
高性能計(jì)算平臺(tái)自2020 年6 月投入使用以來(lái),師生廣泛參與,覆蓋了全校所有理工科學(xué)院和專(zhuān)業(yè)技術(shù)部門(mén),2021 年用戶(hù)數(shù)即超過(guò)400 人,完成作業(yè)量超過(guò)90 萬(wàn)件,服務(wù)項(xiàng)目數(shù)超290 個(gè),其中與航空航天相關(guān)的學(xué)科使用尤為明顯。如圖7、8 分別為2021 年學(xué)校高性能計(jì)算平臺(tái)的用戶(hù)分布和項(xiàng)目分布情況。
圖7 2021年南航高性能計(jì)算平臺(tái)用戶(hù)分布
圖8 2021年南航高性能計(jì)算平臺(tái)項(xiàng)目分布
同時(shí),高性能計(jì)算平臺(tái)作為計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院一級(jí)學(xué)科的重要平臺(tái)以及學(xué)?;I建“先進(jìn)計(jì)算產(chǎn)業(yè)學(xué)院”的重要載體,面向全校師生開(kāi)展“跨學(xué)科實(shí)驗(yàn)室探索”教學(xué)活動(dòng),為近1 000 名學(xué)生提供教學(xué)支撐,助力人才培養(yǎng)。
高性能計(jì)算平臺(tái)建設(shè)是新世紀(jì)高校學(xué)科建設(shè)和人才培養(yǎng)的重要組成部分[15]。學(xué)校從高校平臺(tái)數(shù)據(jù)傳輸效率高、溝通交互成本低、數(shù)據(jù)安全可控等優(yōu)勢(shì)出發(fā),以信息化技術(shù)為手段,進(jìn)一步探索平臺(tái)在管理體系、技術(shù)體系、服務(wù)體系以及合作體系四大方面的創(chuàng)新,以期提高平臺(tái)開(kāi)放共享能力,為用戶(hù)提供更好的服務(wù)。實(shí)踐結(jié)果表明,協(xié)同化的平臺(tái)建設(shè)模式能有效提高資源的利用效率和支撐學(xué)校人才培養(yǎng)。