◎北京臨近空間飛行器系統(tǒng)工程研究所 吳茂永 盧康 周智力 李坤遠(yuǎn) 孫沃
新一代航天器數(shù)字化設(shè)計對多樣化、個性化的計算資源需求日益強(qiáng)烈,高適用性高性能計算系統(tǒng)建設(shè)成為必備條件。本文研究了高適用性高性能計算系統(tǒng)構(gòu)建方法,分析了高性能計算在多個航天型號研發(fā)設(shè)計中的應(yīng)用實踐及應(yīng)用效果,提出了相關(guān)經(jīng)驗和體會。
目前,我國航天科技技術(shù)已經(jīng)從跟蹤追隨型向全面自主創(chuàng)新型加快轉(zhuǎn)變,基礎(chǔ)研究薄弱與新型航天科技自主創(chuàng)新發(fā)展的矛盾日益加劇。傳統(tǒng)單一的高計算峰值已經(jīng)不能全面覆蓋新一代航天器數(shù)字化設(shè)計對計算資源的需求,新一代航天器數(shù)字化設(shè)計對多樣化、多粒度、個性化的計算資源需求越來越強(qiáng)烈。
高性能計算系統(tǒng)采用硬件資源集中式共享、軟件資源靈活浮動調(diào)度、資源動態(tài)快速回收的工作方式,可便捷地為設(shè)計、計算、仿真、分析提供全面支撐。高性能計算系統(tǒng)的高適用性(High Serviceability)與航天飛行器設(shè)計多專業(yè)耦合特點、復(fù)雜應(yīng)用需求直接相關(guān),同時也是涉及技術(shù)領(lǐng)域最廣、最難實現(xiàn)的重要特性。高適用性實質(zhì)是在高性能計算資源之上提供多樣化、多粒度、個性化的服務(wù),解決高性能計算資源的服務(wù)化和服務(wù)的按需即取問題。
圖1 高適用性高性能計算系統(tǒng)架構(gòu)圖
航天型號設(shè)計是多學(xué)科交叉耦合的系統(tǒng)工程理論與方法研究,需要通過先進(jìn)數(shù)字化手段開展系統(tǒng)級的總體性能驗證、預(yù)示與評估,需要借助高性能計算能力進(jìn)行全系統(tǒng)、全流程飛行特性模擬數(shù)字仿真試驗,實現(xiàn)航天火箭或飛行器氣動力、氣動熱、結(jié)構(gòu)、載荷和控制等多學(xué)科耦合飛行過程進(jìn)行全程模擬仿真,對飛行過程中的多物理場飛行特性進(jìn)行考察。以大規(guī)模數(shù)值模擬、科學(xué)計算為核心的高適用性高性能計算系統(tǒng)已逐漸成為航天飛行器設(shè)計總體單位的必備條件。
高適用性高性能計算系統(tǒng)是以高性能計算主機(jī)系統(tǒng)為基礎(chǔ),應(yīng)用服務(wù)平臺為服務(wù)入口,大規(guī)模并行計算應(yīng)用軟件平臺為特色的大型數(shù)字化系統(tǒng)。該系統(tǒng)對我所研制的多個型號、多個應(yīng)用領(lǐng)域起全面支撐作用。高適用性高性能計算系統(tǒng)架構(gòu)如圖1 所示。
高性能計算主機(jī)系統(tǒng)主要由具備強(qiáng)大計算能力的計算節(jié)點和海量數(shù)據(jù)存儲節(jié)點組成,兼配備若干臺具備較強(qiáng)圖形處理能力的圖形服務(wù)器,同時配備若干管理與服務(wù)處理服務(wù)器,如圖2 所示。
應(yīng)用服務(wù)平臺是以資源管理與作業(yè)調(diào)度軟件為中心,以面向服務(wù)為導(dǎo)向,在資源調(diào)度軟件、虛擬化軟件、并行和分布式文件系統(tǒng)、門戶軟件以及各學(xué)科應(yīng)用軟件基礎(chǔ)之上整合和定制開發(fā)的軟件平臺。將設(shè)計、仿真、優(yōu)化應(yīng)用集中部署到服務(wù)器端,采用B/S 架構(gòu),通過統(tǒng)一的Web 門戶實現(xiàn)CAD 設(shè)計和CAE 前后處理等二維/三維可視化設(shè)計應(yīng)用軟件使用和調(diào)度管理,用戶可在低端桌面機(jī)上不用安裝任何應(yīng)用軟件的情況下,運行大型的設(shè)計、仿真和優(yōu)化任務(wù),并完成所有日常工作,如圖3 所示。
高適用性主要體現(xiàn)在統(tǒng)一調(diào)度和管理對資源的合理分配。常采用的資源分配模式有兩種共存的調(diào)度模式。
圖2 高性能計算主機(jī)
圖3 統(tǒng)一調(diào)度平臺圖片
該策略下作業(yè)按照提交順序依次執(zhí)行。在這種情況下,一旦某個用戶一次性提交了大量的作業(yè)并占據(jù)了所有計算資源,則在其后其他用戶提交作業(yè)時將不得不等到計算資源被釋放的時候才能運行。Fairshare 策略的原理是對不同的用戶自動設(shè)置優(yōu)先級,按照優(yōu)先級來確定作業(yè)分發(fā)和運行的順序。優(yōu)先級是動態(tài)變化的,變化的根據(jù)是此用戶已經(jīng)消耗的計算資源和當(dāng)前的share 數(shù)目。已經(jīng)消耗的計算資源較少和share 數(shù)目較多的用戶將擁有較高的作業(yè)執(zhí)行度,其作業(yè)將更有可能被分發(fā)和運行。應(yīng)用Fairshare 策略有效避免了用戶一家獨占計算資源的情況,提高了計算資源使用的公平性和適用性。
型號研制過程中使用高性能計算系統(tǒng),經(jīng)常會出現(xiàn)以下兩種作業(yè):
1)要求短時間內(nèi)計算完成,所需CPU 核數(shù)較多的作業(yè),如次日急需某個結(jié)果以完成報告的作業(yè);
2)要求計算時間較長,但是CPU核數(shù)要求不多的作業(yè),如某些需要計算數(shù)周的串行作業(yè)。
對于以上兩種情況特殊的作業(yè),如果將其按照同樣的策略進(jìn)行調(diào)度,在計算資源緊張的情況下,通常難以同時滿足核數(shù)和完成時間的要求。針對這種情況,在原有隊列的基礎(chǔ)上增加了一個應(yīng)急隊列,此隊列能夠應(yīng)對中小規(guī)模的計算。針對此隊列,進(jìn)行了以下的控制和管理措施:
1)提交的作業(yè)必須屬于上文提到的兩種情況,即計算時間短或需求核數(shù)少;
2)提交作業(yè)前必須經(jīng)過系統(tǒng)管理員的審核;
3)系統(tǒng)管理員對應(yīng)急隊列進(jìn)行嚴(yán)密的監(jiān)控,在其他隊列負(fù)載不滿時及時將對應(yīng)作業(yè)移動到相應(yīng)隊列。
在應(yīng)急隊列投入使用后,大部分優(yōu)先度較高的作業(yè)能按照各自的需求正常運行,基本滿足了不同優(yōu)先度的作業(yè)的需求,提高了用戶滿意度和型號研制過程中特殊需求,可以適應(yīng)多樣化的計算需求。
高適用性高性能計算系統(tǒng)在計算能力、通信能力、I/O 能力和系統(tǒng)軟件能力等方面,呈現(xiàn)出面向航天型號研發(fā)優(yōu)化設(shè)計、技術(shù)先進(jìn)、實用高效的突出特點。高適用性高性能計算系統(tǒng)全面支撐多種復(fù)雜應(yīng)用,承擔(dān)大規(guī)??茖W(xué)工程計算、仿真計算等任務(wù),涵蓋總體、氣動、結(jié)構(gòu)、防隔熱、制導(dǎo)控制、動力、系統(tǒng)仿真等專業(yè),成功應(yīng)用于多個型號研發(fā)設(shè)計過程中。具體主要體現(xiàn)在以下幾個方面。
在航天飛行器精細(xì)化設(shè)計過程中,氣動力/ 熱數(shù)值模擬、結(jié)構(gòu)強(qiáng)度有限元分析、電磁仿真計算等大規(guī)??茖W(xué)計算都不同程度的依賴于高性能計算。氣動力數(shù)值模擬對高性能計算的需求尤為強(qiáng)烈。CFD 技術(shù)作為高效的設(shè)計手段廣泛應(yīng)用于氣動優(yōu)化設(shè)計和氣動特性分析工作,可以彌補(bǔ)地面風(fēng)洞實驗?zāi)芰Φ牟蛔?。依托高性能計算系統(tǒng)和航天型號需求開發(fā)了具有自主知識產(chǎn)權(quán)的HyperCFD 并行計算平臺。
該平臺具有完全界面化、標(biāo)準(zhǔn)化、可擴(kuò)展、可維護(hù)等特點。能夠高效解決總體氣動力計算、部件氣動力計算、一般氣動特性仿真與分析等計算問題。最終形成的系統(tǒng)將包括定常/ 非定常計算核心求解器、前處理工具、后處理工具、網(wǎng)格重剖分工具、人機(jī)交互界面等模塊,用戶只需在平臺終端通過簡單的操作即可實現(xiàn)在高性能計算系統(tǒng)中自動提交計算任務(wù)實現(xiàn)并行計算。由于采用多分區(qū)并行計算、多重網(wǎng)格加速收斂算法、高效并行算法與其他優(yōu)化方法,大規(guī)模并行CFD 計算平臺具有可觀的加速比,大幅提高航天型號設(shè)計能力。
依靠高適用性高性能計算系統(tǒng)平臺,基于復(fù)雜外形高精度氣動熱環(huán)境數(shù)值模擬技術(shù),開展了航天飛行器外形的不同飛行剖面下的熱環(huán)境數(shù)值仿真,獲得了大量的三維熱環(huán)境數(shù)據(jù),并應(yīng)用于熱環(huán)境設(shè)計中;同時在高性能計算系統(tǒng)強(qiáng)大的計算能力支持下,逐漸建立了氣動熱數(shù)據(jù)庫與綜合分析平臺,從而逐漸實現(xiàn)對氣動熱相關(guān)數(shù)據(jù)的綜合管理,實現(xiàn)對氣動熱算法對比分析以及試驗數(shù)據(jù)、飛行遙測數(shù)據(jù)的驗證和考核,同時發(fā)展基于數(shù)據(jù)庫分析的熱環(huán)境預(yù)測與設(shè)計方法,實現(xiàn)針對新型航天飛行器的熱環(huán)境精細(xì)化設(shè)計。
基于高性能計算系統(tǒng)強(qiáng)大的計算能力,開展多專業(yè)、大規(guī)模聯(lián)合仿真,提升航天型號設(shè)計精度,解決了過去在PC 機(jī)無法完成的工作,實現(xiàn)了設(shè)計人員已從單一的領(lǐng)域仿真發(fā)展到氣動、防隔熱、控制、強(qiáng)度、電磁等多個專業(yè)領(lǐng)域聯(lián)合設(shè)計仿真。同時,高性能計算系統(tǒng)部署了30 余種應(yīng)用軟件,為總體一體化協(xié)同設(shè)計、數(shù)字樣機(jī)協(xié)同設(shè)計、基于大規(guī)模數(shù)值計算的飛行器氣動特性分析、高升阻比外形真實氣體氣動熱環(huán)境高精度數(shù)值模擬、大型結(jié)構(gòu)強(qiáng)度仿真分析、控制系統(tǒng)數(shù)學(xué)仿真、系統(tǒng)級熱環(huán)境分析與仿真、特殊電磁環(huán)境模擬建模分析、全程攻防對抗仿真分析等任務(wù)提供工具支撐。
高適用性高性能計算系統(tǒng)在航天設(shè)計應(yīng)用實踐中,取得了顯著效果,具體體現(xiàn)在以下幾個方面:
基于高適用性高性能計算系統(tǒng)的計算能力將過去的計算時間大幅縮短。例如,依托HyperCFD 并行計算平臺可同時利用上百顆CPU 對某一型號網(wǎng)格模型進(jìn)行并行計算,加速比可達(dá)到23 倍,過去采用串行計算一個500 萬網(wǎng)格量的作業(yè)需要13 天,而如今利用高性能計算系統(tǒng)HyperCFD 并行計算平臺計算一個狀態(tài)僅僅需要13 小時左右,大大縮短了計算周期,并且保證了并行計算精度與原串行軟件一致。
高適用性高性能計算系統(tǒng)在航天設(shè)計中的應(yīng)用徹底改變設(shè)計模式和設(shè)計理念。依托高性能計算系統(tǒng)的計算能力和存儲能力,設(shè)計人員可以將航天型號網(wǎng)格模型設(shè)計的非常精細(xì),而不用擔(dān)心過去由于精細(xì)化的模型計算機(jī)無法進(jìn)行仿真計算問題。因此,網(wǎng)格精細(xì)化可以有效提升了航天型號設(shè)計精度和質(zhì)量,對提升航天型號質(zhì)量發(fā)揮了重大作用。
高適用性高性能計算系統(tǒng)改變了設(shè)計人員的設(shè)計理念。過去設(shè)計過程中由于無法采用計算機(jī)進(jìn)行仿真模式,需要大量的實物試驗對設(shè)計進(jìn)行驗證,實物試驗耗時、耗財,非常低效。而高性能計算系統(tǒng)全面支撐多種復(fù)雜應(yīng)用,用戶可在低端桌面機(jī)上不用安裝任何應(yīng)用軟件的情況下,運行大型的設(shè)計、仿真和優(yōu)化任務(wù)。過去的實物試驗好多都可以依托高性能計算而進(jìn)行虛擬仿真,不需要再進(jìn)行試驗或者只進(jìn)行一次試驗就可以完成設(shè)計的迭代。設(shè)計理念的改變,大幅降低了成本和周期。
高性能計算系統(tǒng)前期投入很大,運營成本也很大。但與傳統(tǒng)的資源獨占式的使用方式相比,高適用性高性能計算系統(tǒng)便捷地為幾乎所有設(shè)計、計算、仿真、分析提供全面支撐,潛在經(jīng)濟(jì)效益很高。同時硬件資源的集中式的共享,軟件許可證資源的靈活浮動調(diào)度以及資源的動態(tài)回收,使得高性能計算系統(tǒng)軟硬件資源利用率很高。
高適用性高性能計算系統(tǒng)為航天型號研制提供高效的計算和大數(shù)據(jù)分析能力,支撐了多型火箭及飛行器型號并行研制,實現(xiàn)了型號的精細(xì)化研發(fā)設(shè)計,在確保各項型號圓滿成功中發(fā)揮重要作用,促進(jìn)了我國質(zhì)量強(qiáng)國、航天強(qiáng)國國家重大戰(zhàn)略的有效落實。通過高適用性高性能計算系統(tǒng)在航天型號設(shè)計中成功應(yīng)用并發(fā)揮了重要作用,我們總結(jié)了以下四點經(jīng)驗與體會。
高性能計算系統(tǒng)結(jié)構(gòu)復(fù)雜,技術(shù)迭代很快,因此價值折舊也快,需要提前進(jìn)行頂層規(guī)劃,面向需求建設(shè)。建設(shè)后需要盡快投入使用發(fā)揮效益。堅持硬件系統(tǒng)與軟件平臺集中建設(shè)、應(yīng)用軟件集中共享的原則,形成了良好的頂層設(shè)計,這是高適應(yīng)性高性能計算系統(tǒng)能夠真正落地并在型號研制過程中發(fā)揮巨大作用的原動力。
在航天領(lǐng)域,以基于高性能計算的高精度的大規(guī)模數(shù)值模擬取代傳統(tǒng)的工程計算方法,更有利于復(fù)雜的機(jī)理研究;同時,高性能計算能夠節(jié)省型號研制時間,提高型號研制精細(xì)度,使得理論方法轉(zhuǎn)換成工程實踐,這種全新的研究、設(shè)計與分析手段,是一種先進(jìn)的生產(chǎn)力,也是航天企業(yè)的核心競爭力,對新型號的順利研制起著巨大的促進(jìn)作用。
對航天飛行器設(shè)計而言,高性能計算系統(tǒng)的高適用性是多專業(yè)耦合、解決復(fù)雜應(yīng)用需求最直接的途徑,涉及技術(shù)領(lǐng)域最廣、技術(shù)難度最大。高性能計算系統(tǒng)建成之初使用方法復(fù)雜,僅僅應(yīng)用于CFD 計算。隨著應(yīng)用服務(wù)平臺的深入定制開發(fā),單一系統(tǒng)映像的逐步實現(xiàn)和界面化的應(yīng)用方法實現(xiàn),能夠讓更多專業(yè)的設(shè)計人員像使用個人PC 機(jī)一樣使用高性能計算系統(tǒng),輕易獲得高性能計算能力和大型圖形交互設(shè)計能力,從而使更廣泛的設(shè)計人員得益,除此之外,使得系統(tǒng)的使用趨向統(tǒng)一化和規(guī)范化。提升系統(tǒng)的高適用性是發(fā)揮系統(tǒng)全面支撐作用的關(guān)鍵因素,也決定著系統(tǒng)能否在更大范圍內(nèi)推廣使用。
針對航天飛行器設(shè)計總體單位的現(xiàn)狀,建立了一支高素質(zhì)高效率的管理人員隊伍,并建立了一套完備的行之有效的管理制度,為航天飛行器設(shè)計人員提供了高效靈活的設(shè)計仿真驗證一體化平臺,形成了一批掌握高性能計算能力的專業(yè)設(shè)計人員。同時,建立資源調(diào)度管理和特急計算任務(wù)應(yīng)對機(jī)制,在保障高性能計算資源利用率的前提下,提高了高性能計算資源調(diào)度的靈活性。建立機(jī)房配套設(shè)備設(shè)施的管理運維制度,實現(xiàn)高性能計算系統(tǒng)及其配套設(shè)備的穩(wěn)定運行和高效維護(hù)。
高適用性高性能計算系統(tǒng),已經(jīng)在航天型號研制過程中得到了充分實踐,取得了良好的效果。高性能計算系統(tǒng)不只是提供大規(guī)模數(shù)值計算,而且面向多專業(yè)領(lǐng)域的各種復(fù)雜應(yīng)用提供多樣化服務(wù),實現(xiàn)了大規(guī)模并行計算與航天產(chǎn)品大模型交互設(shè)計過程、圖形處理一體化,符合航天飛行器總體設(shè)計的多專業(yè)耦合特點,適應(yīng)了多領(lǐng)域協(xié)同設(shè)計的要求。
未來依托高適用性高性能計算系統(tǒng),結(jié)合航天型號需求和國家自主可控國家戰(zhàn)略要求,開發(fā)具有自主知識產(chǎn)權(quán)的航天研制軟件工具并進(jìn)行更深入的應(yīng)用,使得高性能計算系統(tǒng)在航天領(lǐng)域發(fā)揮更大的作用。