• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向異構(gòu)超算的結(jié)構(gòu)分析高效并行計算方法*

    2021-01-05 09:20:46丁峻宏苗新強李根國
    計算機工程與科學(xué) 2020年12期
    關(guān)鍵詞:IC卡超級計算機結(jié)點

    丁峻宏,苗新強,李根國

    (1.上海超算科技有限公司,上海 201203;2.中國電子科技集團公司第五十一研究所,上海 201802;3.上海超級計算中心,上海 201203)

    1 引言

    當(dāng)前,在很多科學(xué)和工程研究領(lǐng)域為了提高計算分析的規(guī)模和效率,通常采用超級計算機進行并行計算[1 - 3]。其中,有限元和計算機技術(shù)的融合和快速發(fā)展使其被廣泛應(yīng)用于航空、汽車、土木和建筑等許多工程領(lǐng)域。在進行大規(guī)模并行計算時,往往需要根據(jù)超級計算機的硬件體系結(jié)構(gòu)特點設(shè)計出合適的并行算法,以充分發(fā)揮其高效的計算性能。

    傳統(tǒng)的超級計算機在每個結(jié)點內(nèi)配置的計算設(shè)備比較單一,一般只配置CPU,被稱為同構(gòu)型超級計算機[4]。近年來硬件加速技術(shù)的飛速發(fā)展使得新型研制的超級計算機傾向于在每個結(jié)點內(nèi)部配置不同性能的計算設(shè)備,除了配置CPU外,還配置有協(xié)處理器,如圖形處理器GPU(Graphic Processing Unit)[5]和眾核處理器MIC(Many Integrated Core)[6],這也就催生了異構(gòu)型超級計算機。對于傳統(tǒng)的同構(gòu)型超級計算機,國內(nèi)外一些學(xué)者提出了不少好的方法。例如,針對共享存儲的同構(gòu)型超級計算機提出了循環(huán)級的細粒度并行計算方法[7],而針對分布式存儲的同構(gòu)型超級計算機提出了任務(wù)級的粗粒度并行計算方法[8]。在異構(gòu)超級計算機中最早是采用GPU作為協(xié)處理器,很多學(xué)者也對其有一定的研究[9 - 11]。異構(gòu)型超級計算機從采用Intel公司推出的MIC作為協(xié)處理器開始,將并行計算從多核時代帶入了眾核時代[12]。對適合異構(gòu)眾核超算的并行計算方法的研究目前處于不斷探索階段[13 - 15],相關(guān)的研究還不是太多。

    本文嘗試探索異構(gòu)眾核架構(gòu)下有限元結(jié)構(gòu)分析的并行優(yōu)化方法,研究有限元結(jié)構(gòu)分析與高性能計算平臺的最優(yōu)適配方法,為同類應(yīng)用問題的并行移植和性能優(yōu)化提供借鑒與參考。

    2 結(jié)構(gòu)分析并行計算與異構(gòu)眾核計算平臺

    2.1 結(jié)構(gòu)分析并行計算

    結(jié)構(gòu)分析平衡方程可以表達為:

    Kx=P

    (1)

    其中,K為總體剛度矩陣,P為總體外部載荷向量,x為位移向量。

    利用區(qū)域分解法進行有限元結(jié)構(gòu)分析并行計算的基本原理[16]如下所示:

    首先將總體網(wǎng)格模型分為數(shù)個子區(qū)域;然后按照先內(nèi)部自由度后邊界自由度的編號原則同時獨立形成每個子區(qū)域的系統(tǒng)方程:

    (2)

    其中,xI,xB,PI,PB分別為內(nèi)部節(jié)點和邊界節(jié)點對應(yīng)的位移和外部載荷向量;K**為剛度矩陣中的分塊矩陣,其中下標(biāo)I和B分別表示內(nèi)部自由度和邊界自由度。

    通過縮聚同時獨立消去各子區(qū)域內(nèi)部節(jié)點自由度后,得到只含邊界節(jié)點自由度未知量的界面方程:

    (3)

    其中有效剛度矩陣:

    (4)

    有效載荷向量:

    (5)

    接著將所有子區(qū)域的界面方程聯(lián)立求解,得到各子區(qū)域邊界節(jié)點位移。根據(jù)求得的邊界節(jié)點位移xB,各子區(qū)域內(nèi)部節(jié)點位移xI由式(6)回代求解:

    xI=(KII)-1(PI-KIBxB)

    (6)

    計算各子區(qū)域的應(yīng)變值和應(yīng)力值,并分別輸出結(jié)果。

    2.2 異構(gòu)眾核計算平臺

    “天河二號”異構(gòu)眾核超算包含1.6萬計算結(jié)點(單結(jié)點配置2顆Intel Xeon E5 多核處理器和3塊Intel Xeon Phi眾核處理器)。結(jié)點間互連采用自制主干拓撲結(jié)構(gòu)網(wǎng)絡(luò),網(wǎng)絡(luò)接口使用NIC控制器。

    傳統(tǒng)區(qū)域分解法應(yīng)用在同構(gòu)型超級計算機上效果很好,但應(yīng)用在異構(gòu)眾核超級計算機上時卻會面臨一些問題。這是由于異構(gòu)眾核超級計算機在大幅度提升系統(tǒng)計算性能的同時也為高效并行計算方法的設(shè)計帶來了一定的挑戰(zhàn):首先MIC的計算性能與CPU相比迥異,因此如何實現(xiàn)CPU與MIC設(shè)備之間以及不同結(jié)點之間的負載均衡成為迫切需要解決的問題。其次,在異構(gòu)眾核超級計算機中不同結(jié)點、設(shè)備以及計算核心間的通信延遲差異顯得更加突出,而通信延遲是制約大規(guī)模并行計算效率的主要因素之一,故如何提高系統(tǒng)的通信效率成為并行計算方法設(shè)計的一個關(guān)鍵問題。最后,每個MIC卡內(nèi)存空間不大,如何利用有限的內(nèi)存空間實現(xiàn)大規(guī)模并發(fā)性計算任務(wù)也是需要重點考慮的問題。

    3 多層次多粒度協(xié)同并行計算方法

    從硬件體系結(jié)構(gòu)看,眾核架構(gòu)下異構(gòu)超算由多計算單元(多核或眾核)、多設(shè)備(CPU或MIC卡)和多結(jié)點的層次性元素構(gòu)成。在結(jié)點之間和設(shè)備之間可以考慮使用任務(wù)級的粗粒度并行計算方法,而多核或眾核的不同計算核心間適合采用循環(huán)級的細粒度并行計算方法。為了實現(xiàn)并行計算方法與異構(gòu)超算平臺的最優(yōu)適配,本文提出了一種針對結(jié)構(gòu)有限元分析的多層次多粒度協(xié)同并行計算方法。

    3.1 總體方法

    多層次多粒度協(xié)同并行計算方法基于對計算任務(wù)的層次性和粒度性剖析。如圖1所示,本文將有限元結(jié)構(gòu)分析的計算作業(yè)的并行處理劃分為3個不同層面,以與異構(gòu)眾核超算硬件結(jié)構(gòu)相匹配:結(jié)點間、設(shè)備間和核間。其中前兩者使用粗粒度并行方法,而后者使用細粒度并行方法。

    Figure 1 Task mapping圖1 任務(wù)映射

    (1)結(jié)點間并行。

    任務(wù)級的粗粒度并行計算方法適合結(jié)點間并行,這是由于采用分布式存儲的異構(gòu)眾核超算的結(jié)點之間通信延遲遠遠高于結(jié)點內(nèi)部,因此任務(wù)級的粗粒度并行計算方法適合于結(jié)點之間的并行。這樣不僅能夠?qū)崿F(xiàn)大規(guī)模并行計算數(shù)據(jù)的分布式存儲,而且可以有效降低通信開銷。

    如圖1所示,結(jié)點間并行在區(qū)域分解法基礎(chǔ)上開展:首先結(jié)構(gòu)有限元網(wǎng)格被劃分為M個一級子區(qū)域,其中M為并行計算所調(diào)用的整體結(jié)點數(shù)量。每個一級子區(qū)域被分別分配給一個計算結(jié)點,從而實現(xiàn)結(jié)點間的并行計算。由于各計算結(jié)點的性能都一致,因此為實現(xiàn)結(jié)點間的負載均衡,在進行一級剖分時各子區(qū)域的規(guī)模也應(yīng)當(dāng)相同。

    (2)設(shè)備間并行。

    相對于結(jié)點間通信來說,同一結(jié)點內(nèi)不同設(shè)備間的通信開銷要小一些,但比每個設(shè)備內(nèi)部的核間通信開銷還大很多,所以基于區(qū)域分解的粗粒度并行計算方法多用于不同設(shè)備之間。為最大程度限制設(shè)備間的通信在同一計算結(jié)點內(nèi),應(yīng)將相鄰的子區(qū)域分配在一起。

    如圖1所示,設(shè)備間的并行立足于(1)中的一級分區(qū)結(jié)果:每個一級子區(qū)域被進一步分解為(Q+R)個二級子區(qū)域,其中Q指的是單個結(jié)點內(nèi)部CPU設(shè)備的數(shù)目,R則定義為單個結(jié)點內(nèi)部MIC卡設(shè)備的數(shù)目。然后,每一個設(shè)備將單獨處理一個二級子區(qū)域,從而實現(xiàn)設(shè)備間的并行計算。由于各二級子區(qū)域均由同一個一級子區(qū)域派生而來,這就將相鄰的子區(qū)域分配在了一起,這樣就使得設(shè)備之間的通信被限制在同一計算結(jié)點內(nèi)??紤]到MIC和CPU計算性能的表現(xiàn)相差明顯,因此在二級分區(qū)時分配給CPU設(shè)備和MIC設(shè)備的子區(qū)域規(guī)模應(yīng)有所不同。為盡量在不同設(shè)備間尋求負載均衡,本文將特定的計算任務(wù)分別分配給CPU和MIC單獨計算,以確定二者計算性能的比值,然后據(jù)此確定分配給CPU設(shè)備和MIC設(shè)備的子區(qū)域規(guī)模的大小。

    (3)核間并行。

    隨著硬件技術(shù)的快速發(fā)展,異構(gòu)眾核超級計算機在每個結(jié)點內(nèi)集成的計算核心數(shù)也越來越多。例如,“天河二號”上每顆CPU配置12個多核計算核心,每個MIC卡配置61個眾核計算核心(其中57個可供用戶使用)。如此眾多的計算核心一方面具有較高的硬件并發(fā)計算特性,另一方面這些計算核心間通過共享系統(tǒng)二級緩存和內(nèi)存具有很高的數(shù)據(jù)通信效率。若采用基于區(qū)域分解的粗粒度并行計算方法利用這些多核或眾核資源難免會面臨因分區(qū)過多而導(dǎo)致系統(tǒng)通信開銷增加的問題。而細粒度并行計算方法本身就具備高度的并發(fā)性,能夠有效利用多核或眾核資源較高的硬件并發(fā)計算特性。此外,它是基于共享存儲實現(xiàn)的,能充分利用多核或眾核間共享二級緩存和內(nèi)存的優(yōu)勢提高系統(tǒng)數(shù)據(jù)訪問效率[17]。因此,本文采用循環(huán)級的細粒度并行計算方法實現(xiàn)核間的并行計算。

    核間并行將基于每一個二級子區(qū)域的計算任務(wù)繼續(xù)作分解,這將觸及到處于最底層的計算模塊?;趨^(qū)域分解法進行有限元結(jié)構(gòu)分析并行計算的主要步驟包括:組集子區(qū)域系統(tǒng)平衡方程、縮聚、求解界面方程、回代內(nèi)部自由度以及計算子區(qū)域應(yīng)變和應(yīng)力。如圖1所示,核間并行要做的工作就是基于二級子區(qū)域的每個計算步驟,搜尋其中的熱點計算程序,即大的循環(huán)結(jié)構(gòu),并將其進一步分解為一批彼此獨立、各自執(zhí)行的子任務(wù),其后CPU或MIC的一個計算核心將被調(diào)配去執(zhí)行每一個子任務(wù)。

    3.2 多層次多粒度協(xié)同并行計算方法的實現(xiàn)

    本文采用offload模式實現(xiàn)有限元結(jié)構(gòu)分析的多層次多粒度協(xié)同并行計算方法,在通信層面使用MPI+OpenMP實現(xiàn)。如圖2所示,有限元結(jié)構(gòu)分析的多層次多粒度協(xié)同并行計算流程為:

    第1步首先實施兩級分區(qū)方法,以獲取用于結(jié)構(gòu)分析并行所需的計算數(shù)據(jù)文件,包括M個子區(qū)域的節(jié)點、單元、載荷和邊界條件以及相鄰分區(qū)信息等。

    第2步在CPU端啟動執(zhí)行M*(Q+R)個MPI進程,其中每個進程負責(zé)讀取和處理一個二級子區(qū)域數(shù)據(jù)文件。

    第3步在每一個進程的內(nèi)部再各自進一步派生出K個線程,并加載到CPU端利用多核資源完成相應(yīng)子區(qū)域總體剛度矩陣和外部載荷向量的計算。其中,K等于單個結(jié)點內(nèi)所有CPU設(shè)備的總核數(shù)除以單個結(jié)點內(nèi)的進程總數(shù)并取整。

    第4步與MIC設(shè)備相關(guān)聯(lián)的進程首先將子區(qū)域的總體剛度矩陣和外部載荷向量加載到MIC卡,在MIC端進一步派生出S個線程并進行縮聚計算,計算結(jié)果將最終被傳回至CPU端;而與CPU設(shè)備相關(guān)聯(lián)的進程則直接在CPU端派生T個線程進行縮聚計算。其中,S等于單個MIC卡總核數(shù)的4倍;T等于單顆CPU的總核數(shù)。

    第5步各進程共同利用并行預(yù)處理共軛梯度PCG(Preconditioned Conjugate Gradient)算法求解界面方程,得到各子區(qū)域邊界節(jié)點位移后再回代求解內(nèi)部位移。其中,求解界面方程時每個進程內(nèi)部派生出K個線程,以有效利用CPU的多核資源縮短計算量較大的任務(wù)的處理時間。

    第6步與MIC設(shè)備相關(guān)聯(lián)的進程首先將子區(qū)域節(jié)點位移加載到MIC卡,然后在MIC端派生S個線程回代求解子區(qū)域應(yīng)變/應(yīng)力,計算結(jié)果將被傳回至CPU端;而與CPU設(shè)備相關(guān)聯(lián)的進程則直接在CPU端派生T個線程計算子區(qū)域應(yīng)變/應(yīng)力。

    第7步如果迭代繼續(xù),則流程將跳轉(zhuǎn)至第2步再執(zhí)行一遍;否則該流程結(jié)束。

    Figure 2 Flowchart of collaborative parallel computing based on multi-layer and multi-grain圖2 多層次多粒度協(xié)同并行計算流程

    3.3 關(guān)鍵技術(shù)研究

    為保證多層次多粒度并行計算方法的順利實施,本文主要針對MIC卡的內(nèi)存瓶頸問題、縮聚算法的高度并發(fā)性實現(xiàn)和界面方程的并行求解等核心問題進行研究。

    3.3.1 MIC卡的內(nèi)存瓶頸問題

    傳統(tǒng)有限元分析程序一般采用變帶寬格式存儲結(jié)構(gòu)剛度矩陣,由于它不能避免對帶寬內(nèi)大量零元素的存儲,因此隨著有限元規(guī)模的擴大會導(dǎo)致系統(tǒng)內(nèi)存需求的急劇增加。但是,單個MIC卡配置的內(nèi)存空間不太大,要利用眾核資源進行并行計算首先必須降低系統(tǒng)的內(nèi)存需求。

    近年來,最新發(fā)展起來的行壓縮存儲技術(shù)通過僅針對剛度矩陣中的非零元素進行存儲,可以大幅度減少系統(tǒng)的內(nèi)存需求??紤]到CPU設(shè)備往往配置有大量的內(nèi)存空間,并且這些內(nèi)存空間對同一結(jié)點內(nèi)的所有CPU設(shè)備都是共享的,因此本文首先在CPU端采用變帶寬格式完成各二級子區(qū)域總體剛度矩陣和外部載荷向量的組集,將其轉(zhuǎn)化為占用內(nèi)存空間較小的行壓縮存儲格式后再加載到MIC端利用眾核資源進行并行計算。

    3.3.2 縮聚算法的高度并發(fā)性實現(xiàn)

    本文通過將縮聚計算轉(zhuǎn)換為一系列相互獨立的線性方程組的求解,并利用OpenMP來開展并行化處理,從而實現(xiàn)了整個計算任務(wù)的高度并發(fā)性執(zhí)行。本文設(shè)計的縮聚算法的偽代碼如算法1所示。

    算法1縮聚算法

    1.//calculate the condensed stiffness matrix

    2.!$ompparalleldo

    3.doi=1,z

    4.b=KIB(:,i)

    5. solveKIIt1=bwith a direct sparse solver

    6. computet2=KBIt1

    8.enddo

    9.!$ompendparalleldo

    10.//calculate the condensed load vector

    11.b=PI

    12.solveKIIt1=bwith a direct sparse solver

    13.computet2=KBIt1

    15.//solve interface equations

    17.//calculate internal degrees of freedom

    18.b=PI-KIBxB

    19.solveKIIxI=bwith a direct sparse solver

    3.3.3 界面方程的并行求解

    在本文中,并行預(yù)條件共軛梯度算法被用于求解界面方程。考慮到求解界面方程的過程中往往需要大量的迭代,將計算數(shù)據(jù)在CPU和MIC設(shè)備間頻繁地傳輸會嚴重影響系統(tǒng)通信效率,因此本文在求解界面方程時只利用CPU端的多核處理器完成相關(guān)的計算工作。對于計算量較小的任務(wù),如向量與向量的和或點積操作,直接交給每個MPI進程完成;而對于計算量較大的任務(wù),如矩陣和向量的乘積,在每個MPI進程內(nèi)部將進一步派生出許多線程,這樣可以有效發(fā)揮CPU端的多核資源優(yōu)勢,從而縮短計算時間。

    4 數(shù)值算例

    在廣州超算“天河二號”計算機上開展了一系列測試,以驗證本文所設(shè)計的并行計算方法的有效性。該超級計算機的主要配置請參閱2.2節(jié)。并行計算每次啟動的結(jié)點機總數(shù)依次為50,100,150和200,實際參與并行計算的核數(shù)依次為9 750,19 500,29 250和39 000。

    該異構(gòu)超算上的每顆CPU有12個計算核心,每個MIC卡可使用57個計算核心,因此配置2顆CPU和3個MIC卡的結(jié)點內(nèi)共有195個計算核心?!疤旌佣枴盋PU/MIC單結(jié)點內(nèi)的協(xié)同并行加速測試表明,1個MIC卡的計算性能約相當(dāng)于2路CPU的性能,即1CPU+1MIC可以達到1CPU計算速度的3倍。

    4.1 并行計算數(shù)據(jù)準備

    在并行計算開始前先進行兩級分區(qū)處理。對于每個計算模型,一級剖分時產(chǎn)生的一級子區(qū)域總數(shù)應(yīng)與每次參與并行計算的結(jié)點機總數(shù)相等,即應(yīng)依次為50,100,150,200。由于“天河二號”每個結(jié)點機內(nèi)配置5個計算設(shè)備(2顆CPU、3個MIC),因此二級剖分時每個一級子區(qū)域被進一步剖分為5個二級子區(qū)域。

    4.2 結(jié)構(gòu)靜力分析并行計算數(shù)值算例

    結(jié)構(gòu)靜力分析并行計算的測試模型如圖3所示,主要分析土木領(lǐng)域某盾構(gòu)隧道模型在土體重力作用下的初始應(yīng)變和應(yīng)力。隧道主線長2 792 m,土層長2 000 m,寬300 m,深80 m。網(wǎng)格剖分采用四面體單元,該模型具有120 574 032個單元,23 379 547個節(jié)點。

    結(jié)構(gòu)靜力分析并行計算的結(jié)果數(shù)據(jù)如表1所示。表1中,并行計算總時間從讀取數(shù)據(jù)文件開始到計算各子區(qū)域應(yīng)變/應(yīng)力結(jié)束;縮聚時間指的是消去各子區(qū)域內(nèi)部自由度所花費的時間、迭代求解時間包括求解界面方程的時間、回代內(nèi)部自由度的時間和計算子區(qū)域應(yīng)變和應(yīng)力的時間。

    Figure 3 Tunnel model for parallel computing圖3 隧道計算模型

    由表1可見,隨著計算核數(shù)的增加,有限元結(jié)構(gòu)靜力分析并行計算的總時間依次減少,加速比呈現(xiàn)逐步增加的趨勢。另據(jù)本文相關(guān)研究測試數(shù)據(jù)表明,與傳統(tǒng)迭代計算方法相比,在使用19 500核時,本文方法總計算耗時只有前者的67%,并且總計算時間節(jié)省優(yōu)勢隨著核數(shù)的增加不斷擴大。

    Table 1 Statistics of time and performance of parallel computing for static analysis表1 靜力學(xué)并行計算時間和性能統(tǒng)計

    由于本文設(shè)計的多層次多粒度協(xié)同并行計算方法不但實現(xiàn)了CPU設(shè)備和MIC設(shè)備間的負載均衡,而且顯著節(jié)省了系統(tǒng)所需的通信開銷,故能有效利用異構(gòu)眾核超級計算機的硬件資源獲取較高的加速比和并行計算效率。

    4.3 結(jié)構(gòu)動力分析并行計算數(shù)值算例

    結(jié)構(gòu)動力分析并行計算的測試模型如圖4所示,主要分析核電領(lǐng)域某防浪堤模型在地震載荷作用下的動力響應(yīng)行為。防浪堤長2 280 m,土層長1 820 m,寬900 m,深350 m。網(wǎng)格剖分依然采用四面體單元,該模型具有113 492 512個單元,21 669 412個節(jié)點。動力分析的時間步長定為0.01 s,求解10 s,總計1 000個時間步。

    結(jié)構(gòu)動力分析并行計算的結(jié)果如表2所示。表2中,并行計算總時間從程序啟動開始到所有時間步都計算完畢結(jié)束;縮聚時間指的是消去各子區(qū)域內(nèi)部自由度所花費的時間、迭代求解是所有時間步的迭代求解時間的總和,每個時間步的迭代求解時間包括求解界面方程的時間、回代內(nèi)部自由度的時間和計算子區(qū)域應(yīng)變/應(yīng)力的時間。

    Figure 4 Breakwater model for parallel computing圖4 防浪堤計算模型

    Table 2 Statistics of time and performance of parallel computing for dynamic analysis表2 動力學(xué)并行計算時間和性能統(tǒng)計

    由表2可見,利用多層次多粒度協(xié)同并行計算方法求解結(jié)構(gòu)動力分析問題時,系統(tǒng)同樣能夠獲取較高的加速比和并行計算效率。另據(jù)本文相關(guān)研究測試數(shù)據(jù)表明,與傳統(tǒng)迭代計算方法相比,在使用19 500核時,本文方法總計算耗時只有前者的63%,并且總計算時間節(jié)省優(yōu)勢隨著核數(shù)的增加不斷擴大。

    相對靜力學(xué)分析而言,載荷均衡和最小化系統(tǒng)間的通信開銷對動力學(xué)分析顯得更加重要。這是由于動力學(xué)分析要對多個時間步進行求解,任何載荷分配的不均衡和通信效率的下降都會在多次求解中被放大,從而極大地影響到系統(tǒng)整體的并行計算效率。

    結(jié)構(gòu)動力分析并行計算需要對多個時間步依次求解,每個時間步都類似求解一次結(jié)構(gòu)靜力學(xué)問題。因此,結(jié)構(gòu)動力分析時間步越多,所累計節(jié)省的絕對計算時間也越多,工程問題計算分析的效率提升優(yōu)勢也更為明顯。

    本文設(shè)計的多層次多粒度并行計算方法很好地解決了CPU設(shè)備和MIC設(shè)備間的負載均衡問題,對于大部分計算任務(wù)實現(xiàn)了多核和眾核資源的協(xié)同并發(fā)執(zhí)行。計算結(jié)果表明顯著降低了在超級計算機上執(zhí)行計算任務(wù)時所產(chǎn)生的通信開銷,因而可以大大提高大規(guī)模結(jié)構(gòu)動力分析的并行計算效率。

    4.4 單機可擴展性測試

    為評估核數(shù)一定時不同網(wǎng)格數(shù)量的計算規(guī)模對程序性能的影響,本文在單個結(jié)點機上進行了系統(tǒng)可擴展性測試。測試模型為左端固定右端受豎直載荷的懸臂梁,主要分析懸臂梁在靜力載荷作用下的應(yīng)變和應(yīng)力。懸臂梁采用四面體單元進行網(wǎng)格剖分,通過不斷加大計算網(wǎng)格的節(jié)點數(shù)和單元數(shù)測試系統(tǒng)在不同計算規(guī)模下的性能,得到的并行計算結(jié)果如表3所示。

    Table 3 Scalability test on a single machine表3 單機可擴展性測試

    由表3可見,隨著懸臂梁模型計算網(wǎng)格節(jié)點數(shù)和單元數(shù)的成倍增加,并行計算總時間也基本呈現(xiàn)出同樣成倍增加的趨勢,這表明本文方法在有限元規(guī)模擴大時具有良好的可擴展性。依據(jù)此趨勢,在研究其他復(fù)雜工程問題時,可以從小規(guī)模計算模型建模調(diào)試入手,在此基礎(chǔ)上繼續(xù)擴大計算模型網(wǎng)格規(guī)模、調(diào)用更多計算結(jié)點,以獲得更為準確的仿真計算結(jié)果。

    5 結(jié)束語

    為提高異構(gòu)眾核超算上有限元結(jié)構(gòu)分析大規(guī)模并行計算的效率,設(shè)計了一種多層次多粒度協(xié)同并行計算方法。通過使每個計算作業(yè)被分解映射到異構(gòu)超算的各硬件層面運行,在有效處理CPU與MIC之間的負載均衡問題的基礎(chǔ)上顯著降低了異構(gòu)超算的通信成本。因此,它能夠通過充分發(fā)揮超算系統(tǒng)的硬件資源規(guī)模優(yōu)勢來表現(xiàn)出最優(yōu)的計算性能。

    采用本文方法在“天河二號”超算系統(tǒng)上開展了幾個有限元結(jié)構(gòu)靜力分析和動力分析所對應(yīng)的的大規(guī)模并行計算數(shù)值算例的測試驗證,啟動的CPU+MIC核數(shù)總計達39 000個,分析的有限元規(guī)模超過1億單元。測試結(jié)果表明,本文方法表現(xiàn)出良好的加速比和并行計算效率。未來計劃將在新一代國產(chǎn)異構(gòu)超級計算機上進一步開展測試和工程應(yīng)用研究。

    猜你喜歡
    IC卡超級計算機結(jié)點
    超級計算機
    工商業(yè)IC卡控制器改造為物聯(lián)網(wǎng)控制器實踐
    超級計算機及其在航空航天領(lǐng)域中的應(yīng)用
    科技傳播(2019年22期)2020-01-14 03:06:36
    在用電梯加裝外接式IC卡運行控制系統(tǒng)設(shè)計改進
    美國制造出全球最快超級計算機
    Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點個數(shù)估計
    每秒100億億次 中國超級計算機
    一種新的無觸點IC卡的檢測方法
    電子測試(2017年15期)2017-12-18 07:19:05
    讀IC卡
    黨員文摘(2014年12期)2014-12-05 20:10:56
    基于Raspberry PI為結(jié)點的天氣云測量網(wǎng)絡(luò)實現(xiàn)
    宿迁市| 巴彦淖尔市| 买车| 五台县| 资阳市| 长子县| 巢湖市| 宁津县| 始兴县| 恩施市| 惠来县| 房产| 类乌齐县| 渭南市| 札达县| 礼泉县| 南华县| 叙永县| 咸宁市| 繁昌县| 西乌珠穆沁旗| 清徐县| 洛川县| 河池市| 湛江市| 秦皇岛市| 贡嘎县| 连平县| 滁州市| 克拉玛依市| 韶关市| 龙里县| 乌拉特中旗| 潜江市| 华坪县| 平遥县| 固安县| 米脂县| 甘谷县| 玉环县| 罗定市|