• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    天河超級(jí)計(jì)算機(jī)上超大規(guī)模高精度計(jì)算流體力學(xué)并行計(jì)算研究進(jìn)展

    2020-11-05 06:09:46徐傳福車永剛李大力王勇獻(xiàn)王正華
    關(guān)鍵詞:并行算法天河超級(jí)計(jì)算機(jī)

    徐傳福,車永剛,李大力,王勇獻(xiàn),王正華

    (1.國防科技大學(xué)高性能計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410073;2.國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073;3.國防科技大學(xué)氣象海洋學(xué)院,湖南 長沙 410073)

    1 引言

    計(jì)算流體力學(xué)CFD(Computational Fluid Dynamics)通過數(shù)值求解各種流體動(dòng)力學(xué)控制方程,獲取各種條件下的流動(dòng)數(shù)據(jù)和作用在繞流物體上的力、力矩和熱量等,從而達(dá)到研究各種流動(dòng)現(xiàn)象和規(guī)律的目的。CFD是涉及流體力學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)、計(jì)算數(shù)學(xué)等多個(gè)專業(yè)的交叉研究領(lǐng)域。隨著高性能計(jì)算機(jī)的飛速發(fā)展,CFD研究和工程實(shí)踐都取得了很大進(jìn)步,20世紀(jì)90年代以來,基于雷諾平均Navier-Stokes方程求解的CFD技術(shù)已經(jīng)廣泛應(yīng)用于航空、航天、航海、能源動(dòng)力、環(huán)境、機(jī)械裝備等諸多國民經(jīng)濟(jì)和國防安全領(lǐng)域,取得了很好的應(yīng)用效果。在航空航天領(lǐng)域,CFD已逐漸成為與理論分析、風(fēng)洞實(shí)驗(yàn)并列的流體力學(xué)3大主要方法之一。美國國家航天局(NASA)預(yù)測(cè),21世紀(jì),高效能計(jì)算機(jī)和CFD技術(shù)的進(jìn)一步結(jié)合將給各類航空航天飛行器的氣動(dòng)設(shè)計(jì)帶來一場(chǎng)革命[1]。

    高性能計(jì)算技術(shù)的迅猛發(fā)展為大規(guī)模復(fù)雜CFD應(yīng)用提供了重要支撐,當(dāng)前,CFD已經(jīng)成為高性能計(jì)算機(jī)上最重要的應(yīng)用之一。隨著應(yīng)用問題復(fù)雜度的增加,CFD要求的幾何外形、數(shù)值方法、物理化學(xué)模型等也日益復(fù)雜、精細(xì),對(duì)大規(guī)模計(jì)算提出了更高要求。CFD對(duì)大規(guī)模計(jì)算的需求可以從能力計(jì)算(Capability Computing)和容量計(jì)算(Capacity Computing)2方面概括。容量計(jì)算指的是利用超級(jí)計(jì)算機(jī)同時(shí)完成大批量生產(chǎn)性業(yè)務(wù),在CFD中通常用于復(fù)雜工程問題的設(shè)計(jì)與優(yōu)化,例如飛行器全包線數(shù)據(jù)庫生產(chǎn)等。有學(xué)者在1997年估計(jì),商業(yè)飛機(jī)巡航一秒鐘的計(jì)算,用每秒萬億次計(jì)算機(jī)需要數(shù)千年,高保真度全包線氣動(dòng)數(shù)據(jù)庫的生產(chǎn)被認(rèn)為是CFD一個(gè)長期的重大挑戰(zhàn)問題[2,3]。能力計(jì)算通常指的是利用超級(jí)計(jì)算機(jī)全系統(tǒng)計(jì)算能力求解單個(gè)大型任務(wù),在CFD中通常用于簡單外形、復(fù)雜流動(dòng)問題的基礎(chǔ)研究,例如采用直接數(shù)值模擬開展湍流流動(dòng)機(jī)理研究等。據(jù)美國波音公司Tinoco博士2009年估計(jì),以當(dāng)時(shí)高性能計(jì)算機(jī)的發(fā)展速度,直到2080年左右才可能進(jìn)行民航客機(jī)全機(jī)的DNS模擬;即便是進(jìn)行大渦模擬也要等到2045年左右[4]。

    CFD巨大的計(jì)算量對(duì)于超級(jí)計(jì)算機(jī)研制和超大規(guī)模并行計(jì)算研究提出了迫切需求,異構(gòu)并行架構(gòu)是當(dāng)前構(gòu)建超大規(guī)模高性能計(jì)算機(jī)系統(tǒng)的重要技術(shù)途徑之一[5]。異構(gòu)超級(jí)計(jì)算機(jī)主要包括異構(gòu)加速器和異構(gòu)眾核2種實(shí)現(xiàn)方式。例如,我國的天河系列超級(jí)計(jì)算機(jī)采用了異構(gòu)加速器,其中天河一號(hào)的加速器為通用GPU(Graphics Processing Unit),而天河二號(hào)的加速器為Intel集成眾核MIC(Many Integrated Cores)(升級(jí)后的天河二號(hào)采用了國產(chǎn)加速器Matrix2000);神威太湖之光則采用了“申威26010”異構(gòu)眾核處理器,每個(gè)處理器包括4個(gè)主計(jì)算核,每個(gè)主計(jì)算核配有一個(gè)8×8的計(jì)算陣列(64個(gè)從計(jì)算核)。在2020年6月發(fā)布的世界超級(jí)計(jì)算機(jī)排行榜(TOP500)中,排名前10的超級(jí)計(jì)算機(jī)有8臺(tái)是異構(gòu)超級(jí)計(jì)算機(jī)。異構(gòu)超級(jí)計(jì)算機(jī)具有明顯的性能價(jià)格比、性能功耗比等優(yōu)勢(shì),但異構(gòu)超級(jí)計(jì)算機(jī)具有異構(gòu)的計(jì)算、存儲(chǔ)和通信能力以及編程環(huán)境,極大增加了高效、大規(guī)模CFD應(yīng)用軟件開發(fā)的難度。在CFD應(yīng)用領(lǐng)域,傳統(tǒng)CPU平臺(tái)并行計(jì)算主要采用分區(qū)并行方法,每個(gè)分區(qū)獨(dú)立進(jìn)行求解,利用消息傳遞通信實(shí)現(xiàn)分區(qū)之間的任務(wù)并行以及共享存儲(chǔ)實(shí)現(xiàn)單個(gè)分區(qū)內(nèi)部的線程并行[6 - 9]。異構(gòu)超級(jí)計(jì)算機(jī)具有多層次、多粒度的異構(gòu)并行性,應(yīng)用并行性開發(fā)需要同時(shí)利用消息傳遞任務(wù)級(jí)并行、計(jì)算結(jié)點(diǎn)內(nèi)CPU與加速器之間的協(xié)同并行、CPU/加速器上的共享存儲(chǔ)線程級(jí)并行和CPU/加速器上的向量化指令級(jí)并行,需要針對(duì)異構(gòu)并行體系結(jié)構(gòu)特征,設(shè)計(jì)多層次可擴(kuò)展并行算法,才能實(shí)現(xiàn)CFD應(yīng)用、算法與并行體系結(jié)構(gòu)的“最佳適配”,充分挖掘超高性能計(jì)算機(jī)潛力。

    國防科技大學(xué)不僅是我國高性能計(jì)算機(jī)系統(tǒng)研制的基地,也是我國高性能計(jì)算應(yīng)用軟件研發(fā)的基地。長期以來,國防科技大學(xué)CFD應(yīng)用軟件團(tuán)隊(duì)依托天河/銀河系列超級(jí)計(jì)算機(jī)開展了超大規(guī)模復(fù)雜CFD并行計(jì)算和性能優(yōu)化研究,突破了異構(gòu)協(xié)同并行計(jì)算等關(guān)鍵技術(shù),實(shí)現(xiàn)了HPC與CFD的深度融合,有力支撐了我國幾套重要的In-house CFD應(yīng)用軟件在天河/銀河系列超級(jí)計(jì)算機(jī)上的大規(guī)模并行計(jì)算。本文歸納總結(jié)了作者團(tuán)隊(duì)基于自主高精度CFD軟件,面向航空航天氣動(dòng)數(shù)值模擬,在天河超級(jí)計(jì)算機(jī)上開展的超大規(guī)模高精度CFD并行計(jì)算研究,并對(duì)未來E級(jí)超級(jí)計(jì)算機(jī)上CFD并行應(yīng)用開發(fā)進(jìn)行了分析展望。

    2 研究現(xiàn)狀

    近年來,隨著P級(jí)超級(jí)計(jì)算機(jī)的研制成功,歐美日等發(fā)達(dá)國家在這些最高端的計(jì)算平臺(tái)上針對(duì)湍流等復(fù)雜流動(dòng)機(jī)理研究開展了超大規(guī)模CFD并行計(jì)算。例如,2013年,德克薩斯州州立大學(xué)研究人員實(shí)現(xiàn)了P級(jí)高雷諾數(shù)槽道流的直接數(shù)值模擬,并行規(guī)模達(dá)到約78萬處理器核[10]。瑞士蘇黎世聯(lián)邦工學(xué)院、IBM蘇黎世實(shí)驗(yàn)室等單位聯(lián)合完成了基于有限體積法的無粘可壓兩相流模擬,最大網(wǎng)格規(guī)模達(dá)13萬億網(wǎng)格點(diǎn),獲得了11PFLOPS的持續(xù)性能,達(dá)到系統(tǒng)峰值性能的55%,該項(xiàng)工作獲得了2013年度戈登·貝爾獎(jiǎng)[11]。

    高性能異構(gòu)并行體系結(jié)構(gòu)發(fā)展至今,很多學(xué)者在GPU、MIC等異構(gòu)超級(jí)計(jì)算機(jī)上開展了大規(guī)模CFD異構(gòu)并行計(jì)算研究,取得了不錯(cuò)的加速效果。GPU出現(xiàn)的早期,研究人員通常僅移植一些簡化的CFD代碼,以二階精度和一些簡單的流動(dòng)問題模擬為主,計(jì)算平臺(tái)通常也僅包含1塊或幾塊GPU卡。通過早期實(shí)踐驗(yàn)證GPU計(jì)算的加速效果后,大規(guī)模GPU異構(gòu)并行逐漸成為CFD并行計(jì)算研究的熱點(diǎn)。例如,Jacobsen等[12]實(shí)現(xiàn)了一個(gè)支持GPU集群的不可壓CFD求解器,在美國國家超級(jí)計(jì)算應(yīng)用中心的Tesla集群上利用64個(gè)結(jié)點(diǎn)(共128塊Tesla C1060 GPU卡)進(jìn)行了測(cè)試,相對(duì)于8 CPU核獲得約130倍的加速比。他們同時(shí)在256塊GPU上開展了頂蓋方腔管道湍流的大渦模擬[13],采用了1維區(qū)域分解,對(duì)比了MPI+OpenMP+CUDA 并行和MPI+CUDA并行實(shí)現(xiàn),但實(shí)際上他們的工作并未實(shí)現(xiàn)CPU-GPU協(xié)同,OpenMP僅用于代替結(jié)點(diǎn)內(nèi)MPI通信。作者團(tuán)隊(duì)在天河一號(hào)超級(jí)計(jì)算機(jī)上設(shè)計(jì)了基于MPI+CUDA+OpenMP的CPU-GPU異構(gòu)協(xié)同并行算法,成功實(shí)現(xiàn)了當(dāng)時(shí)世界上最大規(guī)模CPU-GPU協(xié)同并行高精度計(jì)算,模擬了三段翼構(gòu)型高精度氣動(dòng)聲學(xué)問題和大型客機(jī)C919的高精度氣動(dòng)力預(yù)測(cè)問題,問題規(guī)模達(dá)8億網(wǎng)格單元,并行規(guī)模達(dá)1 024個(gè)計(jì)算結(jié)點(diǎn)[14 - 17]。MIC架構(gòu)產(chǎn)品的出現(xiàn)晚于GPU,相關(guān)CFD問題應(yīng)用優(yōu)化與并行算法研究工作相對(duì)較少。德國宇航中心于2011年啟動(dòng)了名為“面向眾核架構(gòu)的CFD代碼高效實(shí)現(xiàn)HICFD(Highly Efficient Implementation of CFD codes for HPC many-core architectures)”的研究項(xiàng)目[18],面向眾核高性能計(jì)算機(jī)研究新的方法與工具,最優(yōu)地利用系統(tǒng)的全部并行層級(jí),包括在最高層使用MPI,在眾核加速卡級(jí)使用高度可擴(kuò)展的MPI/OpenMP混合并行,在處理器核級(jí)高效利用SIMD部件。隨著天河二號(hào)超級(jí)計(jì)算機(jī)的發(fā)布,作者團(tuán)隊(duì)又開展了MIC平臺(tái)上CFD并行計(jì)算和性能優(yōu)化研究,設(shè)計(jì)了基于MPI+Offload+OpenMP+SIMD的CPU-MIC異構(gòu)協(xié)同并行算法,實(shí)現(xiàn)了數(shù)十億網(wǎng)格規(guī)模的可壓縮拐角直接數(shù)值模擬,并行規(guī)模擴(kuò)展到百萬異構(gòu)計(jì)算核心[19 - 24]。

    整體而言,國內(nèi)多數(shù)CFD并行計(jì)算規(guī)模為數(shù)十到數(shù)百核,與國外相比仍然有較大差距。長期以來國內(nèi)多數(shù)CFD軟件更加關(guān)注CFD自身的專業(yè)性,與高性能計(jì)算機(jī)系統(tǒng)的研制相互脫節(jié),CFD軟件適應(yīng)新型高性能并行體系結(jié)構(gòu)的能力較弱,迫切需要開展CFD算法、應(yīng)用和系統(tǒng)的深度融合研究,充分發(fā)揮新一代超級(jí)計(jì)算機(jī)系統(tǒng)的潛能。

    3 CFD方法、軟件和計(jì)算平臺(tái)

    3.1 數(shù)值方法和軟件

    這里以一個(gè)In-house多區(qū)結(jié)構(gòu)網(wǎng)格高精度CFD軟件為例,簡要介紹高精度CFD數(shù)值方法和軟件實(shí)現(xiàn)。直角坐標(biāo)系下強(qiáng)守恒形式控制方程表示為:

    上述方程通過坐標(biāo)變換(x,y,z,t)→(ξ,η,ζ,τ)轉(zhuǎn)換為曲線坐標(biāo)下方程:

    該結(jié)構(gòu)網(wǎng)格高精度CFD軟件中實(shí)現(xiàn)了WCNS(Weighted Compact Non-linear Scheme)[25]、HDCS(Hybrid cell-edge and cell-node Dissipative Compact Scheme)[26]等我國自主發(fā)展的有限差分高精度計(jì)算格式,這里以5階顯式WCNS格式WCNS-E-5沿方向無粘通量導(dǎo)數(shù)離散為例,其內(nèi)點(diǎn)格式可以表示為:

    高精度CFD軟件計(jì)算流程如圖1所示。迭代(定常時(shí)間步迭代或非定常子迭代)開始施加邊界條件,之后交換虛網(wǎng)格單元和奇異網(wǎng)格單元原始變量值,接著在計(jì)算和交換原始變量梯度之前計(jì)算譜半徑增量和時(shí)間步。WCNS、HDCS等高精度格式在右端項(xiàng)(粘性項(xiàng)和無粘項(xiàng))計(jì)算中實(shí)現(xiàn),右端項(xiàng)計(jì)算結(jié)果也需要進(jìn)行交換。軟件中實(shí)現(xiàn)了常見的LU-SGS、PR-SGS等隱式方法以及顯式Runge-Kutta方法,求得守恒變量增量后更新原始變量及殘差,循環(huán)結(jié)束。

    Figure 1 Flowchart of the structured high-order CFD圖1 高精度結(jié)構(gòu)網(wǎng)格CFD軟件計(jì)算流程

    3.2 異構(gòu)計(jì)算平臺(tái)

    圖2給出了采用加速器的異構(gòu)計(jì)算平臺(tái)。圖2中每個(gè)計(jì)算結(jié)點(diǎn)包含若干共享內(nèi)存的多核CPU,計(jì)算結(jié)點(diǎn)間通過高速互連網(wǎng)絡(luò)進(jìn)行通信,每個(gè)計(jì)算結(jié)點(diǎn)包含若干加速器ACC(ACCelerator),加速器通常具有片上存儲(chǔ),通過PCI-e與CPU進(jìn)行數(shù)據(jù)交互。以天河一號(hào)為例,每個(gè)計(jì)算結(jié)點(diǎn)包含雙路Intel Xeon X5670 CPU和1個(gè)NVIDIA Tesla M2050 GPU;天河二號(hào)每個(gè)計(jì)算結(jié)點(diǎn)則包含雙路Intel Xeon E5-2692 v2 CPU和3塊MIC協(xié)處理器(Intel Xeon Phi 31S1P)。圖2同時(shí)給出了異構(gòu)計(jì)算平臺(tái)各層次對(duì)應(yīng)的編程模型。計(jì)算結(jié)點(diǎn)間通常采用消息傳遞接口MPI(Message Passing Interface)實(shí)現(xiàn)分布式并行,計(jì)算結(jié)點(diǎn)內(nèi)各CPU核上通常采用OpenMP實(shí)現(xiàn)共享存儲(chǔ)并行。不同加速器通常需要采用不同的編程模型,既有GPU專用的CUDA和MIC專用的Intel OffLoad編程模型,也有同時(shí)支持GPU、MIC等多種計(jì)算平臺(tái)的OpenACC、OpenMP4.X等編程模型。CFD應(yīng)用只有綜合利用上述并行編程模型,才能實(shí)現(xiàn)多層次并行算法。

    Figure 2 Accelerator-based heterogeneous computing platform and its programming models圖2 加速器異構(gòu)計(jì)算平臺(tái)及其編程模型

    4 超大規(guī)模異構(gòu)協(xié)同并行計(jì)算

    4.1 異構(gòu)并行區(qū)域分解

    區(qū)域分解是開展并行算法設(shè)計(jì)的第1步。圖3以三維多區(qū)網(wǎng)格CFD計(jì)算為例,給出了支持多層次異構(gòu)協(xié)同并行算法的區(qū)域分解示意圖。圖3中CFD流場(chǎng)區(qū)域首先根據(jù)負(fù)載均衡策略劃分為多個(gè)網(wǎng)格塊(為了滿足大規(guī)模并行計(jì)算及其負(fù)載均衡需求,通常需要對(duì)原始生成的單塊或多塊網(wǎng)格進(jìn)行二次剖分),每個(gè)MPI進(jìn)程負(fù)責(zé)1個(gè)包含若干網(wǎng)格塊的分組,為了簡化編程,通常1個(gè)計(jì)算結(jié)點(diǎn)分配1個(gè)MPI進(jìn)程。結(jié)點(diǎn)內(nèi)網(wǎng)格塊分組需要根據(jù)CPU和加速器的計(jì)算、存儲(chǔ)能力在兩者之間進(jìn)行均衡分配,考慮到編程復(fù)雜度和PCI-e通信開銷等,通常以整個(gè)網(wǎng)格塊作為分配單位。對(duì)于CPU或MIC,每個(gè)網(wǎng)格塊內(nèi)沿著特定維度劃分為數(shù)據(jù)片(data chunk)分配給計(jì)算核實(shí)現(xiàn)OpenMP線程并行。MIC計(jì)算核較多,網(wǎng)格塊規(guī)模較小或所劃分的維度網(wǎng)格單元均較小時(shí),可以采用嵌套OpenMP對(duì)網(wǎng)格塊的第2個(gè)維度進(jìn)行進(jìn)一步劃分。在CPU或MIC上,針對(duì)每個(gè)線程處理的數(shù)據(jù)片內(nèi)的網(wǎng)格線可以實(shí)現(xiàn)向量化并行。

    GPU上的任務(wù)分配則較為復(fù)雜。圖3中給出了一種2層分配策略,由于當(dāng)前GPU均支持流處理,首先將網(wǎng)格塊分配給GPU流實(shí)現(xiàn)GPU上的任務(wù)級(jí)并行;進(jìn)一步,在每個(gè)網(wǎng)格塊內(nèi),若CFD算法模型在計(jì)算中各網(wǎng)格單元沒有依賴關(guān)系,則可以設(shè)置三維的GPU線程塊,每個(gè)GPU線程處理1個(gè)網(wǎng)格單元。如果某一維度網(wǎng)格單元之間存在依賴關(guān)系,則可以考慮采用二維GPU線程塊。作者團(tuán)隊(duì)在天河一號(hào)上針對(duì)多區(qū)結(jié)構(gòu)網(wǎng)格高精度CFD軟件實(shí)現(xiàn)了這種2層策略,這種方法不僅可以充分挖掘GPU的多層次并行,同時(shí)可進(jìn)一步利用流處理對(duì)GPU計(jì)算的區(qū)塊進(jìn)行分組,克服了GPU存儲(chǔ)空間小對(duì)計(jì)算規(guī)模的限制,實(shí)現(xiàn)了CPU與GPU之間負(fù)載的靈活控制(CPU計(jì)算能力弱但存儲(chǔ)容量大,GPU計(jì)算能力強(qiáng)而存儲(chǔ)空間小)。

    Figure 3 Domain decomposition for multi-level heterogeneous collaborative parallel computing圖3 多層次異構(gòu)協(xié)同并行區(qū)域分解示意圖

    在區(qū)域分解過程中,網(wǎng)格剖分通常采用獨(dú)立的工具實(shí)現(xiàn),CPU或加速器上的計(jì)算任務(wù)分配需要在CFD求解器代碼中實(shí)現(xiàn)。與同構(gòu)CPU平臺(tái)相比,異構(gòu)并行平臺(tái)對(duì)區(qū)域分解和負(fù)載均衡提出了更新的要求。例如,為了更好的負(fù)載均衡,異構(gòu)計(jì)算結(jié)點(diǎn)通常要求剖分的網(wǎng)格塊更多,考慮到加速器豐富的并行能力,分配給加速器的網(wǎng)格區(qū)塊又不宜太小。

    4.2 異構(gòu)協(xié)同并行

    異構(gòu)加速器極大地提升了異構(gòu)超級(jí)計(jì)算機(jī)整體性能。以天河一號(hào)為例,每個(gè)計(jì)算結(jié)點(diǎn)CPU雙精度浮點(diǎn)性能約140 GFLOPS,GPU雙精度浮點(diǎn)性能約500 GFLOPS,在異構(gòu)超級(jí)計(jì)算機(jī)上開展大規(guī)模CFD計(jì)算不僅需要用好CPU,更需要用好加速器,使得兩者能夠?qū)崿F(xiàn)高效協(xié)同并行。本文歸納總結(jié)了2種協(xié)同并行模式[14]:基于嵌套OpenMP的協(xié)同和基于ACC異步執(zhí)行的協(xié)同,如圖4所示。以每個(gè)計(jì)算結(jié)點(diǎn)配置1個(gè)加速器、網(wǎng)格包括NBLKCOMS個(gè)分塊為例:基于嵌套OpenMP的協(xié)同首先在CPU上創(chuàng)建第1層2個(gè)OpenMP線程,其中第1個(gè)線程控制編號(hào)為[1,ACC_BLOCK_NUM]的分塊在ACC上的計(jì)算,在第2個(gè)線程內(nèi)創(chuàng)建嵌套OpenMP線程,啟動(dòng)其他CPU核計(jì)算編號(hào)為[ACC_BLOCK_NUM+1,NBLKCOMS]的分塊?;贏CC異步執(zhí)行的協(xié)同則利用了加速器異步編程模型和異步調(diào)度執(zhí)行機(jī)制,CPU主線程異步啟動(dòng)ACC計(jì)算任務(wù)后,控制權(quán)立刻返回CPU主線程,此時(shí)啟動(dòng)CPU上的多線程計(jì)算。在上述2種模式中CPU與ACC上都能夠同時(shí)運(yùn)行計(jì)算任務(wù),從而實(shí)現(xiàn)協(xié)同并行。CFD計(jì)算過程通常涉及邊界處理、邊界數(shù)據(jù)交換等操作,為了保證CPU上具有最新的計(jì)算結(jié)果,協(xié)同并行結(jié)束時(shí)需要在CPU與ACC之間進(jìn)行數(shù)據(jù)傳輸、同步等。

    Figure 4 Two heterogeneous collaborative parallel modes圖4 2種異構(gòu)協(xié)同并行模式

    上述2種協(xié)同并行模式編程實(shí)現(xiàn)均較為簡單,目前GPU、MIC等異構(gòu)加速器及CUDA、OpenMP4.X、OpenACC異構(gòu)編程模型都支持異步執(zhí)行和數(shù)據(jù)傳輸,開發(fā)人員可以在實(shí)際CFD程序中實(shí)現(xiàn)2種并行模式后針對(duì)不同的算例測(cè)試異構(gòu)協(xié)同并行效果。盡管理論上基于ACC異步執(zhí)行的協(xié)同并行似乎較為高效(無需專門留出CPU核控制ACC,所有CPU核均可參與計(jì)算),但在作者過去的實(shí)踐中,基于嵌套OpenMP的協(xié)同并行效果更佳。

    4.3 GPU并行

    MIC上的OpenMP并行與CPU上的類似,這里重點(diǎn)介紹作者團(tuán)隊(duì)針對(duì)多塊網(wǎng)格CFD計(jì)算提出的2層GPU并行算法[14]:網(wǎng)格區(qū)塊內(nèi)基于CUDA的細(xì)粒度數(shù)據(jù)并行算法和網(wǎng)格區(qū)塊間基于CUDA流處理機(jī)制的粗粒度任務(wù)并行算法,如圖5所示。圖5左邊給出的多塊網(wǎng)格CFD計(jì)算過程包含nblk個(gè)網(wǎng)格分塊的塊循環(huán)(block-loop),以及(K,J,I)三維大小為(NK,NJ,NI)網(wǎng)格分塊(虛邊界擴(kuò)充ngn個(gè)網(wǎng)格單元)內(nèi)的單元循環(huán)(cell-loop);右邊給出了2層并行算法實(shí)現(xiàn)的偽代碼,其中對(duì)網(wǎng)格區(qū)塊的循環(huán)(block-loop)和對(duì)網(wǎng)格單元的循環(huán)(cell-loop)分別映射到CUDA中的流處理循環(huán)(stream-loop)和CUDA計(jì)算核函數(shù)(CUDA kernel),這里假設(shè)GPU流的數(shù)量為num_stream。

    Figure 5 Schematic diagram of two-level GPU parallel algorithm for multi-block structured CFD圖5 多區(qū)結(jié)構(gòu)網(wǎng)格CFD計(jì)算2層GPU并行算法示意圖

    細(xì)粒度并行算法根據(jù)CFD不同計(jì)算過程所包括的循環(huán)內(nèi)部對(duì)網(wǎng)格單元的處理是否具有數(shù)據(jù)依賴關(guān)系而設(shè)計(jì)。對(duì)于網(wǎng)格單元間完全獨(dú)立的計(jì)算過程(例如Jacobi迭代、譜半徑計(jì)算等),網(wǎng)格區(qū)塊采用三維分解,計(jì)算過程實(shí)現(xiàn)為三維的CUDA kernel,根據(jù)索引每個(gè)GPU線程可獨(dú)立計(jì)算1個(gè)網(wǎng)格單元。對(duì)于網(wǎng)格單元間存在依賴關(guān)系的計(jì)算過程(例如各方向的無粘、粘性通量計(jì)算),由于CUDA不支持全局線程同步,因此可以采用二維分解,實(shí)現(xiàn)為二維CUDA kernel,每個(gè)GPU線程計(jì)算1條網(wǎng)格線。

    在多區(qū)網(wǎng)格CFD中,任意2次流場(chǎng)邊界信息交換之間的不同網(wǎng)格分區(qū)之間的計(jì)算是獨(dú)立的,可以并行處理。CUDA通過流處理(Streaming)機(jī)制支持任務(wù)級(jí)并行,允許用戶將應(yīng)用問題分為多個(gè)相互獨(dú)立的任務(wù),每個(gè)任務(wù)或者流定義了一個(gè)操作序列,同一流內(nèi)的操作需要滿足一定的順序,而不同流則可以在GPU上亂序執(zhí)行。粗粒度并行算法將每個(gè)GPU流綁定到一個(gè)網(wǎng)格區(qū)塊,同時(shí)在GPU上執(zhí)行多個(gè)GPU流,實(shí)現(xiàn)多個(gè)網(wǎng)格區(qū)塊的并發(fā)處理。流機(jī)制的引入一方面滿足了應(yīng)用問題多層次并行性開發(fā)的需求,另一方面很好地適應(yīng)了GPU的硬件資源特點(diǎn),提高了資源利用效率。在多GPU流處理機(jī)制上進(jìn)一步設(shè)計(jì)了分組多流機(jī)制GBMS(Group-Based Multiple Streams)[14,15],圖6a給出了多GPU流并發(fā)處理多個(gè)區(qū)塊時(shí)的狀態(tài)圖,可以看出多GPU流能夠重疊多個(gè)分區(qū)的拷入、計(jì)算和拷出,隱藏CPU和GPU間數(shù)據(jù)傳輸開銷;圖6b GBMS將4個(gè)流/分區(qū)分為2組,這種方式可有效克服天河一號(hào)Tesla M2050存儲(chǔ)容量小的限制,允許GPU計(jì)算更多網(wǎng)格區(qū)塊。

    Figure 6 Schematic diagram of multi-stream parallel execution and GBMS for 4 grid blocks圖6 4個(gè)分區(qū)時(shí)多流并發(fā)執(zhí)行和分組多流并行示意圖

    4.4 OpenMP并行

    若計(jì)算過程中網(wǎng)格單元之間沒有依賴關(guān)系,則網(wǎng)格分區(qū)內(nèi)的OpenMP并行可以通過沿著網(wǎng)格單元循環(huán)(通常為最外層循環(huán))添加OpenMP編譯指導(dǎo)語句實(shí)現(xiàn),較為簡單,本節(jié)重點(diǎn)介紹作者團(tuán)隊(duì)針對(duì)CFD中常用的具有強(qiáng)數(shù)據(jù)依賴關(guān)系的Gauss-Seidel迭代類算法(例如LU-SGS)改進(jìn)的共享存儲(chǔ)并行算法。以三維結(jié)構(gòu)網(wǎng)格為例(如圖7所示),在LU-SGS算法向前(下三角矩陣)掃描時(shí),網(wǎng)格點(diǎn)(i,j,k)的更新計(jì)算需要依賴小號(hào)鄰居點(diǎn)(i-1,j,k)、(i,j-1,k)和(i,j,k-1)的更新值,反之向后(上三角矩陣)掃描過程中則需要依賴大號(hào)鄰居點(diǎn)(i+1,j,k)、(i,j+1,k)和(i,j,k+1)的更新值。由于這一數(shù)據(jù)依賴特點(diǎn),無法直接添加OpenMP指導(dǎo)語句實(shí)現(xiàn)LU-SGS的共享存儲(chǔ)OpenMP并行。

    Figure 7 Data dependence in forward computing of LU-SGS algorithm 圖7 LU-SGS算法向前掃描時(shí)的數(shù)據(jù)依賴關(guān)系

    為了實(shí)現(xiàn)LU-SGS的OpenMP并行計(jì)算,NASA等機(jī)構(gòu)的學(xué)者提出了對(duì)角-超平面和流水線2種并行算法[32,33],主要思想是開發(fā)LU-SGS算法中各個(gè)不同網(wǎng)格面和網(wǎng)格線上計(jì)算沒有依賴關(guān)系的網(wǎng)格點(diǎn)進(jìn)行并行計(jì)算。在早期的多核處理器上,流水線LU-SGS并行算法取得了很好的并行加速比,然而我們的測(cè)試分析表明,在MIC新型眾核加速器上,228線程時(shí)并行效率急劇下降到25%以下,對(duì)于較小規(guī)模的算例甚至低至1%以下。其原因在于流水線并行效率受流水線建立和排空過程的限制。隨著流水線深度(線程數(shù))增加,流水線建立和排空的開銷也隨之增加。對(duì)于外層循環(huán)長度小于流水線深度的網(wǎng)格塊而言,甚至沒有足夠的計(jì)算任務(wù)充分填充所有的流水線級(jí)。另一方面,隨著線程數(shù)的增加,各個(gè)線程上的計(jì)算負(fù)載均衡性也會(huì)越來越差。

    為了破解傳統(tǒng)流水線并行LU-SGS在MIC加速器上的并行擴(kuò)展性瓶頸,作者團(tuán)隊(duì)針對(duì)三維網(wǎng)格(3個(gè)維度記為K、J、I,KmJn指的是K、J維的第m、n個(gè)網(wǎng)格單元)提出了一種改進(jìn)的基于線程嵌套的2層流水線并行LU-SGS算法(簡稱TL_Pipeline[22 - 24]),如圖8所示。其基本思想就是通過將原來的1條長流水線(深度為dp)轉(zhuǎn)換成相對(duì)較短的2條嵌套的流水線,從而進(jìn)一步開發(fā)原先每個(gè)線程上二維子任務(wù)(子平面)內(nèi)蘊(yùn)含的并行性。TL_Pipeline外層(第1層)流水線的深度為dp1,在每個(gè)流水線階段內(nèi)又包含1個(gè)嵌套深度為dp2的內(nèi)層(第2層)流水線,并且dp1×dp2=dp。其中內(nèi)層流水線是在Jsub子平面上構(gòu)造的,子任務(wù)中Jsub維各網(wǎng)格線組成流水線任務(wù)隊(duì)列,每一條網(wǎng)格線沿著I維靜態(tài)地剖分成dp2個(gè)子網(wǎng)格線。圖8給出的是算法的負(fù)載剖分和任務(wù)調(diào)度示意圖,其中dp1和dp2均為4,即共有16個(gè)并行線程。以第1層流水線的K4J1子任務(wù)為例,該子任務(wù)將進(jìn)一步被劃分為若干更細(xì)粒度的子任務(wù)JmIi(i=1,2,3,4),然后在內(nèi)層流水線上進(jìn)行調(diào)度執(zhí)行。

    Figure 8 Illustration of task decomposition and execution timelines for the pipeline approach (left) with 4 threads/pipeline-stages,and the two-level pipeline approach (right) with 4 threads/pipeline-stages in the sub-pipeline圖8 4個(gè)線程/流水段時(shí)傳統(tǒng)流水線方法(左)和兩層流水線方法(右,子流水線也包含4個(gè)流水段)的任務(wù)分解和執(zhí)行過程

    4.5 向量化并行

    當(dāng)前很多CPU和加速器(例如MIC)均采用了寬向量設(shè)計(jì)(例如天河二號(hào)CPU的雙精度向量寬度為4,MIC 的雙精度向量寬度為8),如果沒有充分利用向量化并行,則應(yīng)用的實(shí)際浮點(diǎn)性能將下降為峰值性能的1/v(設(shè)v為向量寬度)。對(duì)于一些復(fù)雜的CFD計(jì)算過程,直接添加向量化指導(dǎo)語句難以實(shí)現(xiàn)編譯器自動(dòng)向量化或者向量化效率較低,需要對(duì)CFD計(jì)算及訪存特征等進(jìn)行深入分析,必要時(shí)對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行重構(gòu)并采用intrinsic向量化指令實(shí)現(xiàn)高效向量化并行。這里簡單介紹一下作者團(tuán)隊(duì)針對(duì)高階精度有限差分格式WCNS在MIC架構(gòu)上開展的向量化并行化研究[34]。

    圖9給出了5階顯式WCNS格式(WCNS-E-5) 半節(jié)點(diǎn)重構(gòu)模板計(jì)算特點(diǎn)。測(cè)試表明,250萬網(wǎng)格規(guī)模時(shí)半節(jié)點(diǎn)重構(gòu)計(jì)算約占了總計(jì)算時(shí)間的1/3,說明這部分是整個(gè)計(jì)算的性能熱點(diǎn)。作者團(tuán)隊(duì)采用MIC平臺(tái)特有的intrinsic向量化指令對(duì)WCNS-E-5代碼進(jìn)行了重寫,使用的 intrinsic 語句主要包括_mm512_load_pd(對(duì)齊取數(shù)據(jù),可一次訪存取8個(gè)雙精度浮點(diǎn),有效降低訪存次數(shù))、_mm512_fmadd_pd/_mm512_fmsub_pd(乘加/乘減,可通過運(yùn)算指令融合提升性能)、_mm512_storenrngo_pd(對(duì)齊寫數(shù)據(jù),將向量寄存器的8個(gè)雙精度浮點(diǎn)數(shù)寫入內(nèi)存不緩存,對(duì)于只寫訪問有很好的Cache優(yōu)化效果)等。此外,為了使WCNS-E-5更好地適應(yīng)向量化計(jì)算,還對(duì)相關(guān)數(shù)據(jù)結(jié)構(gòu)做了相應(yīng)的調(diào)整。如圖10所示,首先將數(shù)據(jù)結(jié)構(gòu)由結(jié)構(gòu)體數(shù)組AOS(Array Of Structure)調(diào)整為數(shù)組結(jié)構(gòu)SOA(Structure Of Array)形式,使得數(shù)組能夠大跨度地連續(xù)訪問;其次為了訪存的對(duì)齊,對(duì)原數(shù)組做擴(kuò)充填補(bǔ),保證數(shù)組的對(duì)齊(只寫)訪問。

    Figure 9 WCNS-E-5 interpolation template圖9 WCNS-E-5插值模板

    Figure 10 Data structure adjustment圖10 數(shù)據(jù)結(jié)構(gòu)調(diào)整

    4.6 實(shí)驗(yàn)結(jié)果

    本節(jié)將給出在天河系列超級(jí)計(jì)算機(jī)上的部分測(cè)試結(jié)果。首先定義協(xié)同效率CE(Collaborative Efficiency)以評(píng)估CPU-GPU協(xié)同并行中的效率損失:

    其中,SPCPU和SPGPU分別是僅實(shí)現(xiàn)CPU和GPU并行時(shí)的加速比,SPCPU+GPU是CPU-GPU協(xié)同并行獲得的加速比(以SPCPU作為基準(zhǔn))。例如,SPCPU+GPU=1.8,SPGPU=1.3時(shí),協(xié)同效率CE為1.8/(1.0+1.3)×100%≈78.3%,意味著協(xié)同并行中的效率損失約為22%。

    表1給出了天河一號(hào)超級(jí)計(jì)算機(jī)的單塊Tesla M2050 GPU上不同流實(shí)現(xiàn)策略時(shí)的加速比。網(wǎng)格規(guī)模固定為128×128×128,網(wǎng)格分區(qū)數(shù)由2增加到8,以單流實(shí)現(xiàn)的性能作為基準(zhǔn)??梢钥闯?,采用CUDA多流在GPU上同時(shí)執(zhí)行多個(gè)網(wǎng)格分區(qū)可提升25%~30%的性能。由于CPU-GPU同步以及一些變量的PCI-e傳輸,GBMS有一定的額外開銷,相對(duì)于多流有一定的性能損失(最多28%左右),但作者團(tuán)隊(duì)設(shè)計(jì)的GBMS策略可以將高精度CFD軟件運(yùn)行在單個(gè)M2050 GPU上的最大模擬容量從2百萬網(wǎng)格單元提升到4百萬網(wǎng)格單元,這為后續(xù)CPU-GPU協(xié)同并行的負(fù)載均衡奠定了基礎(chǔ)。

    Table 1 Performance comparison of different CUDA stream implementations表1 GPU上不同流實(shí)現(xiàn)策略時(shí)的加速比

    圖11給出了天河一號(hào)超級(jí)計(jì)算機(jī)單個(gè)計(jì)算結(jié)點(diǎn)內(nèi)GPU并行、CPU-GPU協(xié)同并行以及實(shí)現(xiàn)GBMS策略時(shí)的加速比和協(xié)同并行效率。由于GPU存儲(chǔ)容量限制,僅針對(duì)前4個(gè)相對(duì)較小規(guī)模的網(wǎng)格給出了GPU并行加速比,對(duì)于網(wǎng)格規(guī)模256×128×128(約4百萬網(wǎng)格單元),必須采用GBMS策略,SPGPU由1.3降到1.05,對(duì)于前面4個(gè)小規(guī)模網(wǎng)格問題,協(xié)同并行不需要GBMS,SPCPU+GPU和CE分別可達(dá)到1.8和79%,協(xié)同并行相對(duì)于純GPU并行(GPU-only)提升了約45%的性能。對(duì)于更大規(guī)模的網(wǎng)格(大于4百萬網(wǎng)格單元),GBMS對(duì)于提升協(xié)同并行加速比和協(xié)同效率非常重要。以256×256×18(約8百萬網(wǎng)格單元)網(wǎng)格規(guī)模為例,如果不采用GBMS策略,則GPU只能模擬其中的2百萬網(wǎng)格單元,其他的6百萬網(wǎng)格單元只能在CPU上進(jìn)行模擬,由于嚴(yán)重的負(fù)載不均衡,SPCPU+GPU僅為1.3,CE僅為57%。采用GBMS策略后,CPU和GPU均可以模擬4百萬網(wǎng)格單元,SPCPU+GPU和CE分別提高到1.79和89%。采用GBMS負(fù)載均衡情況下,高精度CFD軟件在一個(gè)天河一號(hào)計(jì)算結(jié)點(diǎn)上的模擬容量由3.5百萬網(wǎng)格單元提升到8百萬網(wǎng)格單元,提升了約2.3倍。進(jìn)一步增加問題規(guī)模會(huì)導(dǎo)致協(xié)同并行加速比和效率明顯下降,原因是即使采用GBMS,GPU模擬負(fù)載最多仍然為4百萬網(wǎng)格單元。

    Figure 11 Intra-node collaborative speedup and efficiency圖11 計(jì)算結(jié)點(diǎn)內(nèi)協(xié)同并行加速比及效率

    圖12給出了天河二號(hào)MIC加速器(Intel Xeon Phi 31S1P)上針對(duì)LU-SGS設(shè)計(jì)的2層流水線OpenMP并行算法TL-Pipeline與傳統(tǒng)流水線OpenMP并行算法的加速比??梢钥闯觯瑐鹘y(tǒng)流水線并行的最大加速比僅為15.5(此時(shí)對(duì)應(yīng)的問題規(guī)模為64×64×64,線程數(shù)為57),當(dāng)使用MIC全部的228個(gè)線程時(shí),加速比降為5.0(32×64×128),7.1(64×64×64)和6.2(128×64×32),表明在眾核加速器上,隨著線程數(shù)量增加,傳統(tǒng)流水線并行存在嚴(yán)重的可擴(kuò)展性瓶頸。與此同時(shí),對(duì)于上面3個(gè)問題規(guī)模,即使采用全部228個(gè)線程,TL-Pipeline加速比也可分別達(dá)到69.1,82.3和98.3。注意到TL-Pipeline加速比的提升對(duì)于不同dp1×dp2的組合變化較大,這是因?yàn)榱魉€開銷以及線程/流水段負(fù)載均衡隨不同模擬變化較大??傊?,TL-Pipeline為在MIC這樣的眾核加速器上實(shí)現(xiàn)LU-SGS等高數(shù)據(jù)依賴求解方法的可擴(kuò)展OpenMP并行提供了新的方法。

    Figure 12 Improvements of TL-Pipeline over the traditional pipeline approach for three grids dimensions on Intel Xeon Phi圖12 3種網(wǎng)格規(guī)模下MIC上2層流水線并行相對(duì)于傳統(tǒng)流水線并行的性能提升

    本文采用規(guī)模為256×256×256的算例,在天河二號(hào)的MIC協(xié)處理器上測(cè)試對(duì)比了WCNS半節(jié)點(diǎn)重構(gòu)計(jì)算的基準(zhǔn)版本和intrinsics向量化優(yōu)化版本的性能改進(jìn)(如圖13所示)?;鶞?zhǔn)版本在MIC端當(dāng)線程數(shù)為224的時(shí)候性能達(dá)到最優(yōu),相對(duì)MIC上單線程計(jì)算的加速比約為83.8倍。采用深度intrinsics向量化優(yōu)化實(shí)現(xiàn)之后,在線程數(shù)規(guī)模不大的情況下,intrinsics優(yōu)化實(shí)現(xiàn)同樣具有很好的線程可擴(kuò)展性。得益于MIC更寬的向量位寬,深度intrinsics優(yōu)化將最優(yōu)性能提升到基準(zhǔn)實(shí)現(xiàn)的4.5倍左右,在112線程時(shí)取得最大加速比,說明向量優(yōu)化之后MIC上的寬向量部件性能得到了更充分的開發(fā)。

    Figure 13 Performance comparison of baseline and intrinsic implementation for WCNS-E-5 interpolation on MIC圖13 WCNS半節(jié)點(diǎn)重構(gòu)基準(zhǔn)版本和intrinsic版本在MIC上的性能對(duì)比

    5 結(jié)束語

    當(dāng)前,天河系列、神威太湖之光等超級(jí)計(jì)算機(jī)已多次排名世界第一,標(biāo)志著我國超級(jí)計(jì)算機(jī)系統(tǒng)研制能力已進(jìn)入世界前列。與此同時(shí),國內(nèi)很多單位在這些國產(chǎn)超級(jí)計(jì)算機(jī)上開展了大量CFD并行應(yīng)用軟件開發(fā)和性能優(yōu)化工作,取得了不錯(cuò)的成果。長期以來,國防科技大學(xué)CFD應(yīng)用軟件團(tuán)隊(duì)以天河/銀河系列超級(jí)計(jì)算機(jī)為依托,開展了超大規(guī)模復(fù)雜CFD并行應(yīng)用開發(fā)和性能優(yōu)化研究,突破了新型異構(gòu)協(xié)同并行計(jì)算等一系列關(guān)鍵技術(shù),初步實(shí)現(xiàn)了HPC與CFD的深度融合,有力支撐了國產(chǎn)CFD軟件在天河/銀河系列超級(jí)計(jì)算機(jī)上的高效超大規(guī)模并行應(yīng)用。

    當(dāng)前高性能計(jì)算發(fā)展的下一個(gè)里程碑是E級(jí)計(jì)算(Exascale Computing,百億億次浮點(diǎn)運(yùn)算/每秒),美、日、歐洲、俄羅斯等都制定了E級(jí)超級(jí)計(jì)算機(jī)研制計(jì)劃。例如,2016年美國能源部正式啟動(dòng)了E級(jí)計(jì)算計(jì)劃ECP(Exascale Computing Project)[35]。ECP特別強(qiáng)調(diào)應(yīng)用軟件開發(fā),將其作為第1個(gè)重點(diǎn)關(guān)注領(lǐng)域。我國也將E級(jí)超級(jí)計(jì)算機(jī)研制納入了國家“十三五”規(guī)劃,目前國防科技大學(xué)、江南計(jì)算技術(shù)研究所、中科曙光3家單位牽頭開展的E級(jí)超算原型系統(tǒng)研制項(xiàng)目已通過驗(yàn)收,實(shí)際的國產(chǎn)E級(jí)超級(jí)計(jì)算機(jī)系統(tǒng)預(yù)期在2021年左右研制成功。我國E級(jí)計(jì)算計(jì)劃中同樣非常關(guān)注與E級(jí)計(jì)算機(jī)配套的高性能計(jì)算應(yīng)用軟件研制,國家重點(diǎn)研發(fā)計(jì)劃中已部署了一批應(yīng)用軟件研發(fā)項(xiàng)目,其中包括數(shù)值飛行器原型、數(shù)值發(fā)動(dòng)機(jī)原型等CFD相關(guān)項(xiàng)目。可以預(yù)見,基于CFD與E級(jí)計(jì)算機(jī)融合的“數(shù)值風(fēng)洞試驗(yàn)”“數(shù)值優(yōu)化設(shè)計(jì)”“數(shù)值虛擬飛行”將給航空航天飛行器設(shè)計(jì)帶來革命性的變化,并將推動(dòng)流體力學(xué)和空氣動(dòng)力學(xué)等學(xué)科的創(chuàng)新發(fā)展[36]。當(dāng)前,E級(jí)系統(tǒng)CFD應(yīng)用開發(fā)面臨巨大挑戰(zhàn)。一方面超級(jí)計(jì)算機(jī)體系結(jié)構(gòu)異構(gòu)、眾核、寬向量趨勢(shì)明顯,目前大多數(shù)CFD應(yīng)用軟件只能在純CPU系統(tǒng)上運(yùn)行,通常僅支持MPI并行計(jì)算,尚不具備利用新型異構(gòu)眾核寬向量并行體系結(jié)構(gòu)的能力,難以充分發(fā)揮超級(jí)計(jì)算機(jī)的多層次異構(gòu)并行性能潛力。另一方面,CFD數(shù)值模擬實(shí)際浮點(diǎn)計(jì)算性能不高、并行可擴(kuò)展性差的情況仍然普遍存在。對(duì)真實(shí)復(fù)雜CFD應(yīng)用而言,機(jī)器浮點(diǎn)效率常常低于10%甚至5%,擴(kuò)展到千核以上并行效率嚴(yán)重下降。如何高效地利用大量寬向量計(jì)算核心和異構(gòu)體系結(jié)構(gòu),獲得實(shí)際計(jì)算的高性能,是一個(gè)嚴(yán)峻的挑戰(zhàn),“應(yīng)用墻”問題依然突出。因此,迫切需要從大規(guī)模CFD數(shù)值模擬應(yīng)用的數(shù)值模型和算法特點(diǎn)出發(fā),緊密結(jié)合新型異構(gòu)眾核體系結(jié)構(gòu)特征,針對(duì)性地開展并行算法研究工作,使應(yīng)用程序充分發(fā)掘大規(guī)模新一代并行計(jì)算機(jī)性能,支撐實(shí)際CFD應(yīng)用的高效能計(jì)算,滿足國家航空航天飛行器等重大型號(hào)工程氣動(dòng)設(shè)計(jì)需求。

    猜你喜歡
    并行算法天河超級(jí)計(jì)算機(jī)
    超級(jí)計(jì)算機(jī)
    湖南省瀟水涔天河水庫擴(kuò)建工程通過竣工驗(yàn)收
    中國水利(2022年1期)2022-02-13 07:37:00
    地圖線要素綜合化的簡遞歸并行算法
    超級(jí)計(jì)算機(jī)及其在航空航天領(lǐng)域中的應(yīng)用
    科技傳播(2019年22期)2020-01-14 03:06:36
    一條天河走運(yùn)來
    北方音樂(2019年13期)2019-08-21 02:14:32
    美國制造出全球最快超級(jí)計(jì)算機(jī)
    每秒100億億次 中國超級(jí)計(jì)算機(jī)
    天河CBD:集聚創(chuàng)新,遇見城市未來
    空中之家(2017年11期)2017-11-28 05:27:45
    基于GPU的GaBP并行算法研究
    “天河二號(hào)”獲全球超算五連冠等
    最新的欧美精品一区二区| 欧美另类亚洲清纯唯美| 久久热在线av| 亚洲五月色婷婷综合| 精品人妻1区二区| 欧美黄色片欧美黄色片| 麻豆av在线久日| 免费不卡黄色视频| 国产av国产精品国产| 在线观看66精品国产| 99国产极品粉嫩在线观看| 99在线人妻在线中文字幕 | 最近最新中文字幕大全免费视频| 亚洲熟妇熟女久久| 美女高潮喷水抽搐中文字幕| 精品视频人人做人人爽| 午夜福利乱码中文字幕| 久久天堂一区二区三区四区| 老汉色av国产亚洲站长工具| 狠狠婷婷综合久久久久久88av| 亚洲熟女精品中文字幕| 国产激情久久老熟女| 一本综合久久免费| 亚洲国产毛片av蜜桃av| 中文字幕另类日韩欧美亚洲嫩草| 精品久久久久久电影网| 啦啦啦视频在线资源免费观看| 亚洲中文字幕日韩| 深夜精品福利| 国产精品成人在线| 日本av手机在线免费观看| 亚洲精品一卡2卡三卡4卡5卡| 一个人免费看片子| 成人亚洲精品一区在线观看| 日本撒尿小便嘘嘘汇集6| 99精品在免费线老司机午夜| 午夜精品国产一区二区电影| 91成年电影在线观看| 如日韩欧美国产精品一区二区三区| 高清在线国产一区| 国产亚洲一区二区精品| 国产精品二区激情视频| 午夜精品久久久久久毛片777| 国产在线精品亚洲第一网站| 飞空精品影院首页| 午夜福利在线免费观看网站| 日本撒尿小便嘘嘘汇集6| 亚洲av成人一区二区三| 丁香六月天网| 狠狠狠狠99中文字幕| 两人在一起打扑克的视频| 91大片在线观看| www.精华液| 高清视频免费观看一区二区| 精品视频人人做人人爽| 99re6热这里在线精品视频| videosex国产| 国产黄频视频在线观看| 欧美日韩亚洲国产一区二区在线观看 | 国产欧美亚洲国产| 99热国产这里只有精品6| 亚洲情色 制服丝袜| 50天的宝宝边吃奶边哭怎么回事| 国产熟女午夜一区二区三区| 国产日韩欧美亚洲二区| 三上悠亚av全集在线观看| 日韩制服丝袜自拍偷拍| 欧美变态另类bdsm刘玥| 午夜福利在线免费观看网站| 大陆偷拍与自拍| 国产成人精品在线电影| 精品久久久久久久毛片微露脸| 久久99一区二区三区| 久久久国产精品麻豆| 国产精品免费一区二区三区在线 | 国产精品亚洲一级av第二区| 日韩制服丝袜自拍偷拍| 日韩制服丝袜自拍偷拍| 日韩一区二区三区影片| 91麻豆av在线| 成人18禁高潮啪啪吃奶动态图| 啦啦啦视频在线资源免费观看| 岛国在线观看网站| 精品少妇一区二区三区视频日本电影| 12—13女人毛片做爰片一| 纯流量卡能插随身wifi吗| tube8黄色片| 免费观看av网站的网址| 国产亚洲午夜精品一区二区久久| 国产精品一区二区精品视频观看| 久久久精品免费免费高清| 欧美在线一区亚洲| 伦理电影免费视频| 黄网站色视频无遮挡免费观看| 亚洲视频免费观看视频| 国产黄色免费在线视频| 脱女人内裤的视频| 中文字幕制服av| 久久久久精品人妻al黑| 一区二区av电影网| 亚洲欧美一区二区三区久久| 国产日韩欧美亚洲二区| 精品福利永久在线观看| 黑人欧美特级aaaaaa片| 女人爽到高潮嗷嗷叫在线视频| 一本综合久久免费| 成年人午夜在线观看视频| 又紧又爽又黄一区二区| 999久久久国产精品视频| 国产日韩欧美在线精品| 少妇被粗大的猛进出69影院| 91精品三级在线观看| 久久国产精品大桥未久av| 欧美精品一区二区大全| 午夜久久久在线观看| 成年人午夜在线观看视频| 精品国产一区二区三区四区第35| a级毛片在线看网站| 自拍欧美九色日韩亚洲蝌蚪91| 欧美激情久久久久久爽电影 | 欧美成人免费av一区二区三区 | 亚洲欧美日韩另类电影网站| 99精品欧美一区二区三区四区| 成人手机av| 黑人欧美特级aaaaaa片| 自线自在国产av| 成人免费观看视频高清| av片东京热男人的天堂| 国产精品国产高清国产av | 亚洲av欧美aⅴ国产| 美女扒开内裤让男人捅视频| 亚洲熟女毛片儿| 高清视频免费观看一区二区| 国产成人av教育| 亚洲国产欧美网| 一个人免费看片子| 欧美亚洲 丝袜 人妻 在线| 青青草视频在线视频观看| 国产精品久久久久久精品古装| av有码第一页| 欧美成人免费av一区二区三区 | 天天躁夜夜躁狠狠躁躁| 91av网站免费观看| 高清在线国产一区| 狠狠精品人妻久久久久久综合| 性高湖久久久久久久久免费观看| 亚洲第一欧美日韩一区二区三区 | 久久人妻福利社区极品人妻图片| 欧美另类亚洲清纯唯美| 老汉色∧v一级毛片| 久久久水蜜桃国产精品网| 国产精品秋霞免费鲁丝片| 亚洲专区字幕在线| 十分钟在线观看高清视频www| 久久午夜综合久久蜜桃| 亚洲精品在线观看二区| 宅男免费午夜| a在线观看视频网站| www.熟女人妻精品国产| 在线 av 中文字幕| 在线观看一区二区三区激情| 俄罗斯特黄特色一大片| 久久香蕉激情| av国产精品久久久久影院| 亚洲国产欧美日韩在线播放| 亚洲熟妇熟女久久| 亚洲国产精品一区二区三区在线| 免费不卡黄色视频| 王馨瑶露胸无遮挡在线观看| 欧美+亚洲+日韩+国产| 日本精品一区二区三区蜜桃| 久久免费观看电影| 少妇的丰满在线观看| 精品少妇内射三级| 飞空精品影院首页| 亚洲视频免费观看视频| 精品福利永久在线观看| 欧美日韩亚洲国产一区二区在线观看 | 国产精品自产拍在线观看55亚洲 | 国产精品1区2区在线观看. | 午夜福利在线观看吧| 久久人妻av系列| 成人国产一区最新在线观看| 亚洲av国产av综合av卡| 欧美人与性动交α欧美软件| 久久久久精品人妻al黑| 欧美国产精品一级二级三级| av天堂在线播放| 欧美精品一区二区大全| 午夜91福利影院| 国产又色又爽无遮挡免费看| 亚洲熟女精品中文字幕| 一边摸一边抽搐一进一出视频| 一二三四社区在线视频社区8| 国产97色在线日韩免费| 日韩中文字幕欧美一区二区| 大型av网站在线播放| 久久99热这里只频精品6学生| 亚洲美女黄片视频| 亚洲熟女精品中文字幕| 搡老熟女国产l中国老女人| 久久精品国产亚洲av香蕉五月 | 精品国产乱子伦一区二区三区| 乱人伦中国视频| 男女下面插进去视频免费观看| 国产日韩一区二区三区精品不卡| 纯流量卡能插随身wifi吗| 精品免费久久久久久久清纯 | 精品国产亚洲在线| 日本黄色日本黄色录像| 久久久久视频综合| 黄色 视频免费看| 在线看a的网站| 亚洲情色 制服丝袜| 99国产极品粉嫩在线观看| 亚洲欧美一区二区三区黑人| 国产精品一区二区在线不卡| 一个人免费看片子| 国产免费福利视频在线观看| 日日爽夜夜爽网站| 亚洲全国av大片| 亚洲av日韩在线播放| 久久久精品94久久精品| 午夜精品国产一区二区电影| 久久天躁狠狠躁夜夜2o2o| 国产高清videossex| 女人被躁到高潮嗷嗷叫费观| 黄色视频不卡| av片东京热男人的天堂| 一级a爱视频在线免费观看| 人人妻人人爽人人添夜夜欢视频| 首页视频小说图片口味搜索| 欧美日韩黄片免| 成在线人永久免费视频| 国产高清国产精品国产三级| 国产精品影院久久| 最新的欧美精品一区二区| 丰满少妇做爰视频| 亚洲第一青青草原| 亚洲avbb在线观看| 国产深夜福利视频在线观看| 成人手机av| 国产精品一区二区在线不卡| 极品少妇高潮喷水抽搐| 国产av又大| 国产精品久久久久久精品电影小说| 欧美午夜高清在线| 精品国产乱码久久久久久小说| 亚洲色图av天堂| 中文字幕人妻丝袜一区二区| 黄色丝袜av网址大全| 好男人电影高清在线观看| 国产黄色免费在线视频| 国产精品国产高清国产av | 夜夜夜夜夜久久久久| 国产精品99久久99久久久不卡| 美女高潮到喷水免费观看| 欧美一级毛片孕妇| 亚洲少妇的诱惑av| 成人手机av| 在线 av 中文字幕| 肉色欧美久久久久久久蜜桃| 久久国产亚洲av麻豆专区| 久热这里只有精品99| 女警被强在线播放| 超碰97精品在线观看| 一夜夜www| 啦啦啦在线免费观看视频4| 国产不卡一卡二| 国产成人av教育| 国产亚洲av高清不卡| 大陆偷拍与自拍| 久久99热这里只频精品6学生| 精品一品国产午夜福利视频| 十分钟在线观看高清视频www| 女人被躁到高潮嗷嗷叫费观| 久久精品91无色码中文字幕| 国产精品国产高清国产av | 国产成人免费观看mmmm| 久久久久久免费高清国产稀缺| 亚洲av欧美aⅴ国产| 国产亚洲精品一区二区www | 老司机午夜十八禁免费视频| 欧美成人午夜精品| 久久免费观看电影| 老熟妇乱子伦视频在线观看| 一夜夜www| 91精品国产国语对白视频| 欧美午夜高清在线| 黄色丝袜av网址大全| tube8黄色片| 热99re8久久精品国产| 久久国产精品影院| 精品国产乱码久久久久久男人| 精品国内亚洲2022精品成人 | 久久久精品94久久精品| 制服诱惑二区| 久久久久视频综合| 国产精品久久久久成人av| 国产男靠女视频免费网站| 精品国产乱码久久久久久男人| 亚洲精品乱久久久久久| 在线十欧美十亚洲十日本专区| 80岁老熟妇乱子伦牲交| 国产精品偷伦视频观看了| 亚洲色图综合在线观看| 午夜免费成人在线视频| 国产成人精品无人区| 国产精品欧美亚洲77777| 午夜激情av网站| av欧美777| 欧美精品人与动牲交sv欧美| 欧美一级毛片孕妇| 手机成人av网站| 久久精品aⅴ一区二区三区四区| 视频在线观看一区二区三区| 淫妇啪啪啪对白视频| 天天躁夜夜躁狠狠躁躁| 性色av乱码一区二区三区2| 国产精品久久电影中文字幕 | 咕卡用的链子| 久久久久精品人妻al黑| 两个人看的免费小视频| 另类亚洲欧美激情| 免费久久久久久久精品成人欧美视频| 99re在线观看精品视频| 狂野欧美激情性xxxx| 免费看a级黄色片| 免费在线观看黄色视频的| 亚洲欧美激情在线| 视频在线观看一区二区三区| 变态另类成人亚洲欧美熟女 | 亚洲精品在线美女| 久久天躁狠狠躁夜夜2o2o| a级毛片黄视频| 久久精品人人爽人人爽视色| 美女福利国产在线| 亚洲av日韩精品久久久久久密| 久久午夜综合久久蜜桃| 国产不卡av网站在线观看| 欧美中文综合在线视频| 美女午夜性视频免费| 日韩大片免费观看网站| 无遮挡黄片免费观看| 男人操女人黄网站| 久久婷婷成人综合色麻豆| 最新的欧美精品一区二区| 久久国产精品影院| 嫁个100分男人电影在线观看| 下体分泌物呈黄色| 国产精品久久久久久人妻精品电影 | 久久精品国产亚洲av香蕉五月 | 下体分泌物呈黄色| 欧美精品一区二区大全| 亚洲精品一卡2卡三卡4卡5卡| 男女下面插进去视频免费观看| 欧美性长视频在线观看| 成年动漫av网址| aaaaa片日本免费| 亚洲人成电影观看| 国产在线精品亚洲第一网站| 女人被躁到高潮嗷嗷叫费观| 少妇裸体淫交视频免费看高清 | 日韩视频一区二区在线观看| 99热网站在线观看| 国产精品99久久99久久久不卡| 亚洲中文av在线| 国产精品欧美亚洲77777| 巨乳人妻的诱惑在线观看| 99久久精品国产亚洲精品| 动漫黄色视频在线观看| 日韩大码丰满熟妇| 又黄又粗又硬又大视频| 视频区欧美日本亚洲| 一级毛片女人18水好多| 岛国毛片在线播放| 国产免费视频播放在线视频| 国产一区二区三区综合在线观看| 最近最新中文字幕大全电影3 | 日韩制服丝袜自拍偷拍| 99久久国产精品久久久| 蜜桃国产av成人99| 欧美日韩视频精品一区| 美女视频免费永久观看网站| 国产色视频综合| 亚洲欧美日韩另类电影网站| 亚洲精品自拍成人| 亚洲欧美激情在线| 嫁个100分男人电影在线观看| 国产精品国产高清国产av | 欧美一级毛片孕妇| 亚洲第一av免费看| 亚洲国产av新网站| 少妇粗大呻吟视频| 视频区图区小说| 黄色 视频免费看| a在线观看视频网站| 少妇 在线观看| 99国产精品一区二区蜜桃av | 亚洲欧美色中文字幕在线| 桃花免费在线播放| 伊人久久大香线蕉亚洲五| 在线观看免费午夜福利视频| 18禁观看日本| 亚洲国产av影院在线观看| 精品亚洲成a人片在线观看| 性少妇av在线| 在线观看一区二区三区激情| 成人18禁在线播放| 久久天堂一区二区三区四区| 最近最新中文字幕大全电影3 | 久久久国产欧美日韩av| 男女免费视频国产| 久久热在线av| 国产日韩欧美亚洲二区| a在线观看视频网站| 色综合婷婷激情| 国产在线观看jvid| 欧美成狂野欧美在线观看| 真人做人爱边吃奶动态| 男女无遮挡免费网站观看| 欧美成狂野欧美在线观看| 欧美人与性动交α欧美软件| 国产一卡二卡三卡精品| 桃花免费在线播放| 婷婷成人精品国产| 国产黄色免费在线视频| 香蕉久久夜色| 国产免费现黄频在线看| 欧美大码av| 少妇精品久久久久久久| 久久久国产成人免费| 亚洲精品成人av观看孕妇| 欧美激情高清一区二区三区| 黄色怎么调成土黄色| 久久精品熟女亚洲av麻豆精品| 一进一出抽搐动态| 精品国产亚洲在线| 久久人妻熟女aⅴ| 国产av国产精品国产| 久久人妻福利社区极品人妻图片| 99国产精品免费福利视频| 久久久久久亚洲精品国产蜜桃av| 亚洲欧美日韩另类电影网站| 亚洲性夜色夜夜综合| 丰满迷人的少妇在线观看| 国产成人系列免费观看| 免费在线观看黄色视频的| 不卡av一区二区三区| 国产在线视频一区二区| av一本久久久久| 久久国产精品男人的天堂亚洲| 一进一出抽搐动态| 成人特级黄色片久久久久久久 | 嫩草影视91久久| 免费观看av网站的网址| 久久99热这里只频精品6学生| 久久国产精品男人的天堂亚洲| 女人精品久久久久毛片| 一本综合久久免费| 午夜福利,免费看| 欧美成人免费av一区二区三区 | 欧美另类亚洲清纯唯美| 欧美日韩精品网址| 精品国产一区二区三区久久久樱花| 国产精品一区二区在线不卡| 国产成人系列免费观看| 99热国产这里只有精品6| 国产精品一区二区精品视频观看| 90打野战视频偷拍视频| 久久ye,这里只有精品| 国产日韩欧美在线精品| 久久这里只有精品19| 国产精品免费视频内射| 狠狠婷婷综合久久久久久88av| 免费一级毛片在线播放高清视频 | 日本av免费视频播放| 精品一区二区三区视频在线观看免费 | 老司机在亚洲福利影院| 18在线观看网站| 超碰97精品在线观看| 在线观看免费午夜福利视频| 乱人伦中国视频| 中文字幕色久视频| 少妇被粗大的猛进出69影院| 91精品国产国语对白视频| 免费观看av网站的网址| 国产日韩欧美视频二区| 极品人妻少妇av视频| 免费黄频网站在线观看国产| 久久人妻av系列| 性高湖久久久久久久久免费观看| 在线十欧美十亚洲十日本专区| 日韩人妻精品一区2区三区| 婷婷成人精品国产| 久久久久久亚洲精品国产蜜桃av| 国产91精品成人一区二区三区 | 亚洲av第一区精品v没综合| 亚洲欧美日韩另类电影网站| 免费在线观看黄色视频的| 精品亚洲成a人片在线观看| 亚洲欧洲日产国产| 亚洲精品美女久久av网站| 国产在视频线精品| 免费看十八禁软件| 久久人人97超碰香蕉20202| 亚洲avbb在线观看| 捣出白浆h1v1| 女人爽到高潮嗷嗷叫在线视频| 国产精品 国内视频| 每晚都被弄得嗷嗷叫到高潮| 十分钟在线观看高清视频www| 国产av一区二区精品久久| 亚洲精品久久午夜乱码| 黄色视频,在线免费观看| 水蜜桃什么品种好| 免费在线观看黄色视频的| 一个人免费看片子| 亚洲精品国产色婷婷电影| 亚洲熟妇熟女久久| 日韩免费高清中文字幕av| 久久免费观看电影| 女人被躁到高潮嗷嗷叫费观| 国产成人欧美在线观看 | 亚洲av日韩精品久久久久久密| 色婷婷久久久亚洲欧美| 久久亚洲真实| 国产亚洲一区二区精品| 菩萨蛮人人尽说江南好唐韦庄| 丁香欧美五月| 国产高清国产精品国产三级| 女人久久www免费人成看片| 高清欧美精品videossex| 中国美女看黄片| 婷婷成人精品国产| 久久久久国产一级毛片高清牌| kizo精华| 免费一级毛片在线播放高清视频 | 我要看黄色一级片免费的| 一边摸一边抽搐一进一小说 | 亚洲人成77777在线视频| 不卡av一区二区三区| 天天操日日干夜夜撸| 国产在视频线精品| 国产一区二区三区在线臀色熟女 | 国产高清国产精品国产三级| 国产一区有黄有色的免费视频| 国产一区二区在线观看av| 亚洲国产成人一精品久久久| 国产av又大| 在线观看www视频免费| a在线观看视频网站| 亚洲精品一卡2卡三卡4卡5卡| 啪啪无遮挡十八禁网站| 超碰成人久久| 亚洲欧美一区二区三区黑人| 成人永久免费在线观看视频 | 日日摸夜夜添夜夜添小说| 男女床上黄色一级片免费看| 欧美久久黑人一区二区| 国产xxxxx性猛交| 久久精品国产99精品国产亚洲性色 | 国产男女内射视频| 精品一品国产午夜福利视频| 亚洲成人手机| 99riav亚洲国产免费| 极品少妇高潮喷水抽搐| 淫妇啪啪啪对白视频| 男女之事视频高清在线观看| 国产高清视频在线播放一区| 人妻久久中文字幕网| 亚洲精品粉嫩美女一区| 少妇 在线观看| 精品国产一区二区久久| 亚洲精品一二三| 超碰成人久久| 日本一区二区免费在线视频| 他把我摸到了高潮在线观看 | 视频在线观看一区二区三区| 亚洲美女黄片视频| 国产99久久九九免费精品| 国产精品 国内视频| 国产日韩欧美亚洲二区| 精品国产乱子伦一区二区三区| 天天操日日干夜夜撸| 国产在线一区二区三区精| www.熟女人妻精品国产| 精品少妇黑人巨大在线播放| 精品少妇内射三级| 久久中文字幕一级| 国产精品熟女久久久久浪| 交换朋友夫妻互换小说| 亚洲欧美日韩另类电影网站| 国产黄频视频在线观看| 午夜视频精品福利| 两人在一起打扑克的视频| 成年动漫av网址| 老司机在亚洲福利影院| 桃红色精品国产亚洲av| 亚洲国产成人一精品久久久| 亚洲成a人片在线一区二区| 午夜福利欧美成人| 国产高清国产精品国产三级| 久久久水蜜桃国产精品网| 香蕉久久夜色| 一边摸一边抽搐一进一小说 | 亚洲国产成人一精品久久久| 日韩大片免费观看网站| 日韩欧美一区二区三区在线观看 | 色综合欧美亚洲国产小说| 欧美老熟妇乱子伦牲交| 色综合婷婷激情| av网站免费在线观看视频| 国产一区二区三区视频了| 免费不卡黄色视频|