• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    國產(chǎn)異構(gòu)系統(tǒng)上HPL 的優(yōu)化與分析?

    2021-11-09 02:45:18水超洋于獻智王銀山譚光明
    軟件學(xué)報 2021年8期
    關(guān)鍵詞:細(xì)粒度加速器異構(gòu)

    水超洋 ,于獻智 ,王銀山 ,譚光明

    1(中國科學(xué)院 計算技術(shù)研究所,北京 100190)

    2(中國科學(xué)院大學(xué),北京 100190)

    HPL(high performance linpack)是目前HPC 領(lǐng)域中最重要的基準(zhǔn)測試程序之一,其性能被用作TOP500 的排名依據(jù)[1,2].HPL 可以從超級計算機的計算性能、訪存性能、網(wǎng)絡(luò)性能、可用性和穩(wěn)定性等各個方面給予超級計算機綜合評價.HPL 的優(yōu)化具有重要意義,在學(xué)界長期受到關(guān)注和研究.HPL 的優(yōu)化可以為其他科學(xué)計算應(yīng)用的并行優(yōu)化提供有價值的參考.

    自1993 年TOP500[3]排名開始,榜單中的超級計算機的體系結(jié)構(gòu)一直在發(fā)生變化.圖1 展示了排名第一的計算機的體系結(jié)構(gòu)的變化.從圖1 中我們可以看到超算的體系結(jié)構(gòu)從早期的向量處理器和單核通用CPU 時代開始,然后演進到多核CPU 時代,超級計算機的計算能力也從GFLOPS 提升到TFLOPS.2008 年的超算Roadrunner[4]標(biāo)志著異構(gòu)架構(gòu)的超級計算機體系結(jié)構(gòu)的興起,隨后異構(gòu)架構(gòu)開始頻繁涌現(xiàn),超級計算機進入了PFLOPS 的時代.各種加速器,如GPU、DSP、FPGA、MIC 等都作為加速卡出現(xiàn)在各種超算中,我國有也了自己的國產(chǎn)加速器和國產(chǎn)處理器.伴隨著超算體系結(jié)構(gòu)的變化,HPL算法的設(shè)計與實現(xiàn)也應(yīng)該適應(yīng)新的體系結(jié)構(gòu).在這種背景下,本文建立了國產(chǎn)處理器-國產(chǎn)加速器異構(gòu)架構(gòu)上的HPL 性能模型,重點研究了國產(chǎn)處理器-國產(chǎn)加速器異構(gòu)架構(gòu)下的HPL算法的設(shè)計與實現(xiàn).本文的主要貢獻如下:

    ?本文建立了一個HPL 性能模型.

    ?針對國產(chǎn)處理器-國產(chǎn)加速器異構(gòu)架構(gòu),本文設(shè)計了一種多線程細(xì)粒度流水HPL算法,充分利用異構(gòu)系統(tǒng)中的多種硬件,取得了超過同類系統(tǒng)其他實現(xiàn)的效率.

    ?本文實現(xiàn)了輕量級跨平臺的異構(gòu)加速框架HPCX.

    本文第1 節(jié)分析相關(guān)研究.第2 節(jié)介紹HPL 的性能模型.第3 節(jié)給出針對異構(gòu)架構(gòu)的多線程細(xì)粒度流水HPL算法及異構(gòu)加速框架HPCX.第4 節(jié)呈現(xiàn)新HPL算法的性能以及分析.第5 節(jié)總結(jié)全文.

    1 相關(guān)研究

    HPL 是橫量超算性能最重要的基準(zhǔn)測試程序之一,其性能作為TOP500 排名的依據(jù).由于HPL 的重要地位,國內(nèi)外有許多針對Linpack 的優(yōu)化工作.這些工作主要集中在HPL算法優(yōu)化,雙精度矩陣乘法效率優(yōu)化和HPL性能模型3 個方面.

    在Linpack算法優(yōu)化方面,Dongarra 等人基于消息通信接口(message pass interface,簡稱MPI)和基本線性數(shù)學(xué)庫(basic linear arithmetic subroutine,簡稱BLAS)的Level 3 函數(shù)實現(xiàn)了分布式的HPL算法[1].在此基礎(chǔ)上,文獻[5]提出了一種單邊通信和動態(tài)look-ahead算法,通過重疊第i+1 輪迭代的panel 分解與第i輪迭代的尾矩陣更新來實現(xiàn)部分通信與計算的重疊.針對異構(gòu)架構(gòu),Fatica 通過將尾矩陣劃分為固定比例的兩塊分別分配給加速器和CPU 以實現(xiàn)CPU 和加速器的協(xié)同計算[6].Yang 擴展了Fatica 的工作實現(xiàn)了動態(tài)的CPU 和加速器計算任務(wù)劃分,采取根據(jù)上一次計算的CPU/加速器性能比決定下一輪任務(wù)劃分比例的策略[7].文獻[8]實現(xiàn)了一種work-stealing 的策略來實現(xiàn)CPU 和加速器的計算任務(wù)動態(tài)平衡,并且利用有向無環(huán)圖來維護算法中的計算依賴關(guān)系.通過這種對依賴關(guān)系的分析,文獻[8]將行交換的過程分成幾個部分,通過行交換和尾矩陣更新的相互重疊探索了一種粗粒度的流水線算法.

    作為HPL 的核心運算,雙精度矩陣乘法的優(yōu)化在HPL 的優(yōu)化中占有重要地位并且得到了全面而深入的研究.在傳統(tǒng)CPU 平臺上,文獻[9]給出了CPU 上的矩陣乘法的分層算法,通過對CPU 存儲層次的模擬設(shè)計出相應(yīng)的多級分塊緩存策略,以盡可能地利用高速緩存中的數(shù)據(jù).在包含加速器的異構(gòu)架構(gòu)上,李佳佳等提出了五階段流水的異構(gòu)矩陣乘算法來掩蓋CPU 與加速器之間的PCIe 數(shù)據(jù)傳輸[10,11].MAGMA[12]通過細(xì)粒度的任務(wù)劃分并且靈活地在CPU 和加速器上調(diào)度這些任務(wù)來實現(xiàn)負(fù)載的動態(tài)平衡.為充分利用加速器如GPU 的計算能力,文獻[13]通過微基準(zhǔn)測試來探測GPU 的體系結(jié)構(gòu),在匯編語言層面做了多種優(yōu)化,以實現(xiàn)接近GPU 理論浮點峰值性能的雙精度矩陣乘效率[13].

    關(guān)于HPL 的性能建模,文獻[14]以預(yù)測HPL 的擴展性為目的給出了HPL 在CPU 系統(tǒng)上的性能模型.HPL的求解時間被建模為panel 分解,panel 廣播,行交換和尾矩陣更新的時間之和,并給出了模型中一些常量系數(shù)的經(jīng)驗值.王申等人在這個基礎(chǔ)上考慮了look-ahead算法中部分廣播開銷可以被尾矩陣的更新和行交換所掩蓋的情況[15],給出了更為精確的模型.文獻[16]認(rèn)為上述模型的計算都不夠精確,因為模型中的常量值都是經(jīng)驗值,而CPU 計算效率以及通信帶寬等模型常量都會受數(shù)據(jù)量大小的影響.他們主張將這些常量系數(shù)視為可變的,通過已有的測試結(jié)果去學(xué)習(xí)這些系數(shù),用學(xué)習(xí)得到得系數(shù)建模預(yù)測大規(guī)模求解的性能.

    已有文獻中對HPL 的優(yōu)化主要集中在同構(gòu)架構(gòu)上的簡單算法優(yōu)化和性能建模以及異構(gòu)架構(gòu)上的雙精度矩陣乘的優(yōu)化上,而缺少異構(gòu)架構(gòu)上的HPL 的算法建模和算法流水層面的優(yōu)化.本文在CPU 的HPL 性能模型的基礎(chǔ)上建立了國產(chǎn)處理器-國產(chǎn)加速器異構(gòu)架構(gòu)上的HPL 性能模型,并提出了多線程細(xì)粒度的HPL 流水線算法,以充分發(fā)揮異構(gòu)系統(tǒng)中國產(chǎn)處理器的巨大計算能力.在實現(xiàn)上,我們實現(xiàn)了一個輕量級的跨平臺異構(gòu)加速框架HPCX,并用生產(chǎn)者消費者模型來協(xié)調(diào)多線程和多流的協(xié)同計算.

    2 HPL算法和性能模型

    2.1 HPL算法簡介

    HPL算法通過迭代法求解N 階線性方程組Ax=b.求解過程包含兩個步驟,首先通過帶行交換的高斯消元法對系數(shù)矩陣進行 LU 分解得到[Ab] =[[L,U]y],然后進行三角回帶求解x.其中 LU 分解的計算量為,三角回帶的計算量為2N2[1].給定系統(tǒng)的理論浮點峰值性能和HPL 的求解時間T,系統(tǒng)的實測浮點峰值性能Rmax可以表示為,HPL 的效率E=Rmax/Rpeak.

    HPL 的兩個步驟中LU 分解的計算量為O(N3),三角回帶的計算量為O(N2),相比于LU 分解的時間,三角回帶的時間基本可以忽略[17],所以我們的優(yōu)化也集中在LU 分解上.式(1)給出了LU 分解的符號表示,詳細(xì)的算法數(shù)學(xué)證明請參考文獻[1].在實現(xiàn)上,LU 分解以NB列為迭代步進行迭代求解,算法1 給出了LU 分解的詳細(xì)算法描述.每一輪迭代包含4 個子過程,分別是panel 分解、panel 廣播、行交換和尾矩陣更新.其中panel 分解(panel_factorization)通過遞歸高斯消元求解得到L11,U11和L21;panel 廣播(panel_bcast)將L11和L21廣播給同行的行進程;行交換(row_swap)根據(jù)panel 廣播收到的行交換信息做行交換;尾矩陣更新(update)首先執(zhí)行雙精度三角矩陣求逆(DTRSM)得到U12,然后通過將L21和U12做雙精度矩陣乘(DGEMM)更新A22矩陣.

    2.2 HPL性能模型.

    在已有的CPU HPL 建模分析的基礎(chǔ)上[14,16?19],我們提出了適應(yīng)于處理器-加速器異構(gòu)架構(gòu)的HPL 性能模型.在具體介紹我們的HPL 性能模型之前,我們先給出一些符號及其含義,大部分符號采取與文獻[17]中一致的名稱.矩陣A是N×(N+1)的系數(shù)矩陣,以NB×NB的塊大小均勻分布在P×Q的二維進程網(wǎng)格中,mp×nq表示每個進程處理的子矩陣的大小.ffact表示panel 分解中浮點操作的比例,Pcpu和Ecpu分別表示國產(chǎn)處理器雙精度浮點峰值性能和浮點操作的效率,Pacc表示國產(chǎn)加速器雙精度浮點峰值性能,Edgemm和Edtrsm分別表示國產(chǎn)加速器上DGEMM 和DTRSM 的效率,網(wǎng)絡(luò)延遲為Lats,帶寬為BWbyte/s.對于panel 分解子過程,我們通過估計子過程中矩陣乘的計算量乘以一個系數(shù)來估計整體的浮點計算量,式(2)給出了這一子過程的時間估計.其中需要特別指出的是,我們將panel分解中大矩陣放到國產(chǎn)加速器上進行計算,這在式(2)的分母中體現(xiàn)了出來.

    對于panel 廣播算法的選擇,我們實現(xiàn)中采用的是HPL 軟件包中復(fù)雜度較低的Long算法.它的復(fù)雜度為log級別,體現(xiàn)在式(3)前半部分的系數(shù).每次廣播,我們需要傳輸大小為NB×NB的L11和mp×NB的L12以及少量索引,這些數(shù)據(jù)均為雙精度類型(8 字節(jié)),公式的后半部分給出了每一跳(從一個節(jié)點傳往下一個節(jié)點)的時間估計.式(3)給出了對這一過程的時間估計.

    行交換時間的估計方式與panel 廣播的估計方式類似,區(qū)別在于采取的算法和傳輸?shù)臄?shù)據(jù)量不同.出于避免冗余數(shù)據(jù)傳輸?shù)哪康?行交換采用的是spread-roll算法[11],式(4)給出了這一子過程的時間估計.

    尾矩陣更新的過程主要是在國產(chǎn)加速器上執(zhí)行兩個BLAS庫函數(shù)DGEMM 和DTRSM,其計算量分別是2×mp×nq×NB和nq×NB×NB.式(5)給出了尾矩陣更新的時間估計.

    性能模型中參數(shù)的值,我們分為兩類.一類是可以預(yù)知的,比如問題的規(guī)模,分塊的大小以及硬件的峰值浮點性能等等,對于這一類參數(shù),我們根據(jù)系統(tǒng)硬件以及求解問題的實際規(guī)模設(shè)定好對應(yīng)的值;另一類是不可以預(yù)知的,比如雙精度矩陣乘的效率可能和矩陣的規(guī)模相關(guān),網(wǎng)絡(luò)的實際帶寬和延遲可能受發(fā)送的數(shù)據(jù)量的影響等等,對于這一類參數(shù),我們通過小規(guī)模實際測試給出其實測值.

    我們用TOP500 榜單中排名靠前的與國產(chǎn)處理器-國產(chǎn)加速器類似的異構(gòu)系統(tǒng),如Summit[20]、Serria[21]、ABCI[22]以及曙光E 級超算原型機對上述HPL 性能預(yù)測模型進行了檢驗,結(jié)果見表1[17].在大規(guī)模系統(tǒng)HPL 性能預(yù)測的準(zhǔn)確性上,最大誤差值不到5%.可以看到,我們建立的國產(chǎn)處理器-國產(chǎn)加速器異構(gòu)HPL 性能模型較為準(zhǔn)確,可以給將來E 級機的建造提供參考.

    Table 1 TOP500 supercomputer performance prediction表1 TOP500 超級計算機性能預(yù)測

    3 多線程細(xì)粒度HPL算法設(shè)計及實現(xiàn)

    在已有的文獻中,LU 分解的4 個子過程,panel 分解,panel 廣播,行交換和尾矩陣的更新都是順序執(zhí)行的.在過去純CPU 時代,由于尾矩陣更新占據(jù)了90%以上的時間,HPL 的效率主要由DGEMM 的效率決定,其他3 個子過程對性能的影響不大.此時這種順序執(zhí)行4 個步驟,或者通過簡單的look-ahead算法[5]實現(xiàn)粗粒度流水的算法也能取得很好的效果.但是對于國產(chǎn)處理器-國產(chǎn)加速器異構(gòu)架構(gòu),由于國產(chǎn)加速器計算能力與國產(chǎn)處理器的計算能力存在1~2 個數(shù)量級的差距,尾矩陣更新的時間占比減少到了50%左右,此時panel 分解,panel 廣播和行交換對性能的影響就不能忽略.在這樣的背景下,探索一個新的細(xì)粒度流水算法用update 的有用計算去掩蓋panel 分解、panel 廣播和行交換的開銷對于提升HPL 的效率,充分發(fā)揮國產(chǎn)加速器的強大計算能力顯得尤為重要.

    3.1 多線程細(xì)粒度HPL算法的設(shè)計

    HPL 耗時最多的計算是尾矩陣A22更新的矩陣乘法計算,異構(gòu)HPL算法加速的核心是利用國產(chǎn)加速器加速矩陣乘法.傳統(tǒng)的CPU-加速器異構(gòu)HPL算法通過把panel 分解的結(jié)果L11,U12,L21矩陣拷貝到加速器內(nèi)存,同時將更新前的尾矩陣A22拷貝到加速器內(nèi)存,利用加速器求解U12和更新尾矩陣,將更新后的尾矩陣~A22拷貝回CPU 內(nèi)存[17].這種做法將系數(shù)矩陣放在CPU端內(nèi)存中,每次調(diào)用加速器的DGEMM 都需要把數(shù)據(jù)通過PCIe 拷貝到加速器內(nèi)存,在完成計算后又需要把結(jié)果矩陣拷貝回CPU 內(nèi)存.在文獻[6]中通過三階段流水的辦法用加速器上的計算來掩蓋PCIe 數(shù)據(jù)傳輸?shù)拈_銷,但是加速器算力增加的速度遠(yuǎn)遠(yuǎn)高于PCIe 帶寬的增加速度,它們之間越來越大的差距使得加速器計算的時間無法掩蓋PCIe 傳輸?shù)臅r間.為了解決這個問題,我們將系數(shù)矩陣放在國產(chǎn)加速器的內(nèi)存上,這樣就避免了國產(chǎn)處理器和國產(chǎn)加速器之間大量的數(shù)據(jù)交換.只需要在國產(chǎn)處理器做panel 分解之前,從國產(chǎn)加速器把panel 需要的NB列數(shù)據(jù)拷貝回來就可以了.假設(shè)當(dāng)前迭代中剩余待求解系數(shù)矩陣大小為n× (n+1),原來粗粒度并行的算法中,我們需要通過PCIe 移動字節(jié)的數(shù)據(jù),現(xiàn)在只需要移動字節(jié)數(shù)據(jù),通過PCIe 的數(shù)據(jù)傳輸量大大減少了.這個版本的HPL算法我們稱為粗粒度HPL算法.

    粗粒度HPL算法存在兩個問題導(dǎo)致其不能取得很高的性能.一個問題是由于尾矩陣更新時間占比減少,行交換的網(wǎng)絡(luò)傳輸?shù)拈_銷顯得越來越大.另一個問題是通過簡單使用國產(chǎn)加速器的異步流機制讓國產(chǎn)處理器端的panel 分解和國產(chǎn)加速器端的update 并行,國產(chǎn)處理器與國產(chǎn)加速器只有很弱的并行工作的效果,大部分時間國產(chǎn)處理器與國產(chǎn)加速器都是串行執(zhí)行,這造成了國產(chǎn)加速器大量的空閑等待時間.為了解決這兩個問題,我們設(shè)計了一種國產(chǎn)處理器-國產(chǎn)加速器異構(gòu)多線程細(xì)粒度流水算法.我們通過對數(shù)據(jù)依賴的分析發(fā)現(xiàn)尾矩陣更新與行交換在列與列之間是沒有數(shù)據(jù)依賴的.受此啟發(fā),我們在列方向上對尾矩陣進行分塊,如圖2 所示,將完整的尾矩陣行交換和更新劃分成一個個由若干NB列塊組成的單元進行行交換和更新.行交換主要利用PCIe 和網(wǎng)絡(luò),對國產(chǎn)加速器的計算資源占用率不高,這樣就用尾矩陣更新的計算掩蓋了行交換的開銷[17].在上面細(xì)粒度任務(wù)劃分的基礎(chǔ)上,我們引入了多線程多流機制來協(xié)調(diào)國產(chǎn)處理器與國產(chǎn)加速器的計算.具體來說,我們引入了4個線程,如圖3 所示,thread 0 負(fù)責(zé)panel 分解和panel 廣播,thread 1 負(fù)責(zé)PCIe 的數(shù)據(jù)傳輸,thread 2 負(fù)責(zé)行交換,thread 3 負(fù)責(zé)尾矩陣更新.thread 1 和thread 2 兩個線程運行在同一個國產(chǎn)處理器物理核心上,thread 0 和thread 3 分別運行在其他兩個國產(chǎn)處理器物理核心上.除線程0 外,每個線程管理各自的異步流.通過利用線程間同步和流之間的同步來協(xié)調(diào)國產(chǎn)處理器與國產(chǎn)加速器的計算,最終實現(xiàn)了如圖3 所示的流水線.

    Fig.2 HPL fine-grained parallel data splitting (K is a multiple of NB)圖2 HPL 細(xì)粒度并行數(shù)據(jù)劃分(K 是NB 的倍數(shù))

    Fig.3 HPL multithread fine-grained parallel algorithm flow圖3 HPL 多線程細(xì)粒度并行算法流程圖

    3.2 多線程細(xì)粒度HPL算法的實現(xiàn)

    我們通過引入簡單的生產(chǎn)者消費者模式來維護細(xì)粒度算法的依賴關(guān)系,以降低多線程帶來的開銷,實現(xiàn)與文獻[17]中做法一致.如圖4 所示,行交換生產(chǎn)者做完一個列塊的行交換之后,生成一個更新任務(wù)放到更新任務(wù)隊列里邊;負(fù)責(zé)尾矩陣更新的線程作為消費者,取出更新隊列里面的任務(wù)并執(zhí)行,同時尾矩陣更新線程還是傳輸任務(wù)的生產(chǎn)者,在執(zhí)行完一個更新任務(wù)后,生成一個傳輸任務(wù)放到傳輸任務(wù)隊列里邊;負(fù)責(zé)傳輸?shù)木€程從傳輸隊列里取任務(wù)完成傳輸;負(fù)責(zé)panel分解的進程在等待自己需要的列塊數(shù)據(jù)更新完成之后就可以并行開始做下一輪的panel分解[17].各個線程間利用信號量實現(xiàn)等待和喚醒,當(dāng)任務(wù)隊列為空的時候,相應(yīng)線程就掛起,避免忙等待帶來的開銷.

    異構(gòu)系統(tǒng)的加速器有多種,比如GPU、MIC、FPGA、國產(chǎn)加速器等等.為了讓異構(gòu)HPL算法具有可移植性,能夠運行在多種異構(gòu)平臺上,我們完成了一個輕量級的異構(gòu)加速框架HPCX[17].其實現(xiàn)與文獻[17]一致,如圖5 所示,我們抽象出了異構(gòu)加速平臺的一些共有特性,比如內(nèi)存管理,并行計算,數(shù)據(jù)傳輸,異步調(diào)用等等.同時我們對不同廠商的異構(gòu)加速器編程模型和基礎(chǔ)數(shù)學(xué)庫進行總結(jié),定義了一套統(tǒng)一的編程結(jié)構(gòu).在不同的加速器上,使用不同的編程模型(HIP、CUDA、C)實現(xiàn),底層用不同的編譯器編譯成不同平臺上的二進制程序.目前HPCX 支持國產(chǎn)加速器、AMD GPU 和NVIDIA GPU 以及國產(chǎn)處理器、Intel CPU 和AMD CPU.對于其他異構(gòu)加速器,結(jié)合硬件平臺給出HPCX 定義抽象接口的具體實現(xiàn)就可以方便整理到HPCX 框架中.異構(gòu)并行HPL算法通過調(diào)用HPCX 提供的編程接口實現(xiàn)跨平臺加速.

    Fig.4 HPL producer-customer model圖4 HPL生產(chǎn)者消費者模型

    Fig.5 Heterogeneous acceleration framework HPCX圖5 異構(gòu)加速框架HPCX

    4 性能測試與分析

    我們實現(xiàn)了包括國產(chǎn)加速器和NVIDIA GPU 兩種異構(gòu)平臺上的粗粒度版本HPL 和多線程細(xì)粒度版本HPL,在國產(chǎn)加速器和NVIDIA 兩個平臺上進行了測試.在NVIDIA 平臺上,我們將我們實現(xiàn)的兩個版本的HPL與開源成果三階段流水線版本HPL 以及目前NVIDIA 平臺上效率最高的NVIDIA 官方非開源程序nvhpl 進行了對比.在國產(chǎn)加速器平臺上,我們在曙光E 級超算原型機的512 個節(jié)點上進行大規(guī)模擴展性測試.

    4.1 實驗平臺簡介

    表2 給出了我們實驗平臺的信息.在兩種平臺上,單個節(jié)點內(nèi)處理器與加速器都通過PCIe 3.0 總線連接.NVIDIA 平臺上只有一個節(jié)點,配有兩張P100 顯卡.國產(chǎn)加速器平臺上有多個節(jié)點,每個節(jié)點上裝有一個國產(chǎn)加速器,節(jié)點之間采用100Gb/s 的EDR 網(wǎng)絡(luò)連接.

    Table 2 Configuration of computing nodes表2 計算節(jié)點的配置

    4.2 性能與分析

    在NVIDIA 平臺上的單卡測試結(jié)果如圖6 所示.從圖6 中我們可以看到,隨著問題規(guī)模的變大,除了開源的3 階段流水線版本HPL 的性能沒有太大提高外,nvhpl 與我們實現(xiàn)的兩個版本HPL 均有明顯性能提升.出現(xiàn)這種情況是因為3 階段流水線版本的HPL 的矩陣位于CPU 上,而三階段流水線無法用加速器的計算掩蓋PCIe數(shù)據(jù)傳輸?shù)拈_銷.我們可以看到,通過簡單地把矩陣放到加速器內(nèi)存上,粗粒度HPL 就獲得了很大的性能提升,說明將矩陣置于加速器內(nèi)存上是合理的.但是粗粒度HPL算法與nvhpl 相比還是有較大差距,原因是粗粒度HPL算法對加速器與處理器的并行度挖掘不夠,以及忽略了行交換中網(wǎng)絡(luò)通信開銷的優(yōu)化.多線程細(xì)粒度HPL算法在做完上述優(yōu)化之后,性能完全超越了nvhpl 的性能,平均領(lǐng)先nvhpl 達9%.圖7 展示了NVIDIA 平臺上多卡的測試結(jié)果.由于三階段流水線版本HPL 速度太慢,我們略去了它的多卡測試.從圖7 中我們可以發(fā)現(xiàn),粗粒度HPL、多線程細(xì)粒度HPL 與nvhpl 都有較好的擴展性.在多卡測試上,我們的細(xì)粒度版本HPL 依然領(lǐng)先nvhpl.

    如圖8 所示,在曙光E 級原型機的512 個節(jié)點上,我們進行了1~512 個節(jié)點的擴展性測試.從圖8 中可以看出,在不同測試進程規(guī)模下,HPL 的擴展性很好,隨著節(jié)點的增加HPL 的測試效率緩慢下降,從2 個節(jié)點約75%的效率下降到512 個節(jié)點約71%的效率.需要注意圖中單節(jié)點效率偏低是因為單節(jié)點測試采用的NN 格式(非轉(zhuǎn)置非轉(zhuǎn)置)的矩陣乘,而多節(jié)點采用的NT 格式(非轉(zhuǎn)置轉(zhuǎn)置)的矩陣乘,前者的效率低于后者.我們實現(xiàn)的多線程細(xì)粒度版本HPL 最終在512 個節(jié)點上實現(xiàn)了HPL 實測峰值性能2.3 PFLOPS,實測效率71.1%優(yōu)秀測試結(jié)果.

    Fig.6 HPL performance on single NVIDIA GPU圖6 NVIDIA GPU 單卡HPL 性能

    Fig.7 HPL performance on multiple NVIDIA GPUs圖7 NVIDIA GPU 多卡HPL 性能

    Fig.8 Sugon E-prototype supercomputer HPL performance圖8 曙光E 級超算原型機HPL 性能

    5 結(jié) 論

    本文提出的異構(gòu)HPL算法通過將矩陣存儲于國產(chǎn)加速器的內(nèi)存解決了數(shù)據(jù)傳輸瓶頸,通過多線程細(xì)粒度的算法軟流水實現(xiàn)了對通信開銷的掩蓋,通過一個輕量級異構(gòu)加速框架HPCX 提供的對國產(chǎn)加速器的基本操作的抽象實現(xiàn)了跨平臺的異構(gòu)HPL算法.在同類異構(gòu)系統(tǒng)上,我們實現(xiàn)的算法性能遠(yuǎn)遠(yuǎn)超過開源的工作,并且優(yōu)于NVIDIA 公司的非開源HPL 程序.我們的算法也展示了良好的擴展性,在曙光E 級超算原型機512 個節(jié)點HPL 測試中實現(xiàn)了71.1%的效率.同時,我們的性能模型也展示了較高的準(zhǔn)確性,可以為未來E 級異構(gòu)超算的HPL 性能預(yù)測提供參考.

    猜你喜歡
    細(xì)粒度加速器異構(gòu)
    輪滑加速器
    化學(xué)工業(yè)的“加速器”
    融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
    試論同課異構(gòu)之“同”與“異”
    全民小康路上的“加速器”
    少先隊活動(2021年6期)2021-07-22 08:44:24
    細(xì)粒度的流計算執(zhí)行效率優(yōu)化方法
    基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
    支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
    overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
    等待“加速器”
    高清视频免费观看一区二区| 国产精品国产av在线观看| 国产精品嫩草影院av在线观看| av女优亚洲男人天堂| 国产精品一区www在线观看| 久久久久网色| 51国产日韩欧美| 韩国高清视频一区二区三区| 丝袜在线中文字幕| 日韩视频在线欧美| 中国美白少妇内射xxxbb| 女人久久www免费人成看片| 日本-黄色视频高清免费观看| 极品人妻少妇av视频| 亚洲精品久久午夜乱码| 熟妇人妻不卡中文字幕| 精品酒店卫生间| 亚洲熟女精品中文字幕| 中文字幕av电影在线播放| 蜜桃国产av成人99| 国产成人一区二区在线| 观看av在线不卡| 人人澡人人妻人| 亚洲欧美一区二区三区国产| 青春草视频在线免费观看| 插逼视频在线观看| 黑人高潮一二区| 一级毛片我不卡| 九九爱精品视频在线观看| 亚洲成av片中文字幕在线观看 | 高清视频免费观看一区二区| 哪个播放器可以免费观看大片| 青春草亚洲视频在线观看| a 毛片基地| 男女无遮挡免费网站观看| 成年美女黄网站色视频大全免费| 国产精品免费大片| 久久人人爽人人片av| 国产精品久久久av美女十八| 日韩人妻精品一区2区三区| 高清av免费在线| 国产精品嫩草影院av在线观看| 久久久久久久亚洲中文字幕| 欧美精品一区二区大全| 久久午夜综合久久蜜桃| 欧美成人精品欧美一级黄| 色5月婷婷丁香| 最新的欧美精品一区二区| 亚洲欧洲日产国产| 99热这里只有是精品在线观看| 青春草视频在线免费观看| 纵有疾风起免费观看全集完整版| 国产片内射在线| 九色亚洲精品在线播放| 人妻一区二区av| 久久99精品国语久久久| 亚洲精品国产色婷婷电影| 亚洲欧美一区二区三区国产| 亚洲在久久综合| 国产 一区精品| 日本av手机在线免费观看| 国产精品蜜桃在线观看| 国产高清不卡午夜福利| 又粗又硬又长又爽又黄的视频| 热99国产精品久久久久久7| 国产一区有黄有色的免费视频| 亚洲欧美精品自产自拍| 国产精品三级大全| 欧美亚洲日本最大视频资源| 亚洲av电影在线进入| www.色视频.com| 最后的刺客免费高清国语| 日日啪夜夜爽| 国产精品 国内视频| 97在线视频观看| 久久精品夜色国产| 欧美日本中文国产一区发布| 美女国产视频在线观看| 国产成人aa在线观看| 考比视频在线观看| 精品酒店卫生间| 国产精品成人在线| 9191精品国产免费久久| 亚洲少妇的诱惑av| 成人毛片a级毛片在线播放| 日本猛色少妇xxxxx猛交久久| 亚洲国产精品成人久久小说| 亚洲性久久影院| 黄片无遮挡物在线观看| 国产免费一区二区三区四区乱码| 又黄又爽又刺激的免费视频.| 亚洲欧美一区二区三区黑人 | 亚洲欧美中文字幕日韩二区| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 丝袜人妻中文字幕| 人人妻人人添人人爽欧美一区卜| 国产日韩欧美亚洲二区| 日本黄大片高清| 少妇的逼好多水| 亚洲欧美一区二区三区国产| 国产在线免费精品| 国产麻豆69| 亚洲欧美清纯卡通| 蜜桃在线观看..| 国产精品一国产av| av电影中文网址| 精品一区二区三卡| 91aial.com中文字幕在线观看| 久久久久久久精品精品| 乱码一卡2卡4卡精品| 亚洲欧美精品自产自拍| 美女xxoo啪啪120秒动态图| 黄色 视频免费看| 亚洲中文av在线| 亚洲伊人久久精品综合| 国产成人aa在线观看| 午夜福利,免费看| 国产熟女午夜一区二区三区| 一本久久精品| 国产又爽黄色视频| 欧美精品一区二区免费开放| 99九九在线精品视频| 午夜影院在线不卡| 日本与韩国留学比较| 国产av国产精品国产| 精品亚洲乱码少妇综合久久| 男女下面插进去视频免费观看 | 日韩熟女老妇一区二区性免费视频| 七月丁香在线播放| 少妇熟女欧美另类| 精品酒店卫生间| 中国三级夫妇交换| 99热6这里只有精品| 在线天堂中文资源库| 国产麻豆69| 色婷婷久久久亚洲欧美| 老女人水多毛片| 五月开心婷婷网| 另类亚洲欧美激情| 18+在线观看网站| 一级毛片黄色毛片免费观看视频| 亚洲精品日韩在线中文字幕| 日本与韩国留学比较| 777米奇影视久久| 春色校园在线视频观看| 亚洲av在线观看美女高潮| 人妻一区二区av| 国产av精品麻豆| 视频在线观看一区二区三区| 极品人妻少妇av视频| 日本av手机在线免费观看| 亚洲国产色片| 极品少妇高潮喷水抽搐| 亚洲,欧美,日韩| 纵有疾风起免费观看全集完整版| 日本色播在线视频| 中文精品一卡2卡3卡4更新| 久久热在线av| 黄色视频在线播放观看不卡| 国产高清三级在线| 国产在线免费精品| 这个男人来自地球电影免费观看 | 久久久久国产网址| 日本与韩国留学比较| 激情五月婷婷亚洲| 97人妻天天添夜夜摸| 日韩视频在线欧美| 欧美日韩视频精品一区| 午夜福利影视在线免费观看| 精品人妻熟女毛片av久久网站| 日日撸夜夜添| 超碰97精品在线观看| 99国产综合亚洲精品| 国产精品三级大全| 新久久久久国产一级毛片| 22中文网久久字幕| videossex国产| 久热这里只有精品99| 69精品国产乱码久久久| 欧美精品亚洲一区二区| 国产一区二区激情短视频 | 亚洲国产色片| 免费av不卡在线播放| 高清av免费在线| 香蕉精品网在线| 免费女性裸体啪啪无遮挡网站| 中文字幕最新亚洲高清| 涩涩av久久男人的天堂| 国产 一区精品| 国产精品久久久久成人av| 中国美白少妇内射xxxbb| 亚洲国产精品专区欧美| 妹子高潮喷水视频| 中文天堂在线官网| 最后的刺客免费高清国语| 国产精品人妻久久久久久| 99香蕉大伊视频| 国产精品嫩草影院av在线观看| 99re6热这里在线精品视频| 十分钟在线观看高清视频www| 在线免费观看不下载黄p国产| 看免费成人av毛片| 亚洲色图 男人天堂 中文字幕 | 人妻 亚洲 视频| 日本黄大片高清| 精品第一国产精品| 久久精品aⅴ一区二区三区四区 | 美女主播在线视频| 一区二区三区四区激情视频| 欧美日韩视频高清一区二区三区二| 免费观看无遮挡的男女| 又大又黄又爽视频免费| 2018国产大陆天天弄谢| 少妇猛男粗大的猛烈进出视频| 国产黄色视频一区二区在线观看| 欧美变态另类bdsm刘玥| 亚洲精品视频女| 美女xxoo啪啪120秒动态图| 麻豆乱淫一区二区| 狠狠精品人妻久久久久久综合| 深夜精品福利| 免费人妻精品一区二区三区视频| 亚洲精品国产色婷婷电影| 久久久久精品性色| 日韩电影二区| 亚洲精品aⅴ在线观看| 少妇的丰满在线观看| 人妻人人澡人人爽人人| 丝瓜视频免费看黄片| 色网站视频免费| 桃花免费在线播放| 午夜91福利影院| 亚洲伊人色综图| 久久精品人人爽人人爽视色| 日韩伦理黄色片| 性色avwww在线观看| 国产av一区二区精品久久| www.色视频.com| 性色av一级| 大话2 男鬼变身卡| 好男人视频免费观看在线| 日韩成人伦理影院| 黑人高潮一二区| 如何舔出高潮| 亚洲av欧美aⅴ国产| 热re99久久国产66热| kizo精华| 男女边吃奶边做爰视频| 日本欧美视频一区| 桃花免费在线播放| 亚洲av在线观看美女高潮| 免费人妻精品一区二区三区视频| 在线 av 中文字幕| 你懂的网址亚洲精品在线观看| 久久99热这里只频精品6学生| 成人综合一区亚洲| 亚洲一级一片aⅴ在线观看| 香蕉精品网在线| 日韩av在线免费看完整版不卡| 一级毛片我不卡| 久久久久精品人妻al黑| 精品一区二区三区四区五区乱码 | 欧美xxⅹ黑人| 亚洲精品国产av成人精品| 黄色配什么色好看| 免费大片18禁| 日韩成人伦理影院| 国产视频首页在线观看| 又黄又爽又刺激的免费视频.| av福利片在线| 超碰97精品在线观看| 一级片免费观看大全| 一级毛片我不卡| 亚洲精品美女久久av网站| 亚洲精品国产色婷婷电影| 亚洲国产毛片av蜜桃av| 精品一区二区三区四区五区乱码 | 国产成人精品福利久久| 国产亚洲最大av| videos熟女内射| 欧美亚洲 丝袜 人妻 在线| 欧美 亚洲 国产 日韩一| 性高湖久久久久久久久免费观看| 久久青草综合色| 精品人妻在线不人妻| 最近最新中文字幕免费大全7| 久久久久久人人人人人| 91aial.com中文字幕在线观看| 国产精品一区www在线观看| 熟女电影av网| 免费观看无遮挡的男女| 黄色配什么色好看| 国产av国产精品国产| 亚洲国产精品999| 亚洲av福利一区| 亚洲伊人色综图| 美女主播在线视频| 国产亚洲一区二区精品| 亚洲激情五月婷婷啪啪| 国产黄色视频一区二区在线观看| 国产永久视频网站| 国产精品久久久久久精品电影小说| 人体艺术视频欧美日本| 好男人视频免费观看在线| 国产欧美亚洲国产| 久久99热这里只频精品6学生| kizo精华| 成人漫画全彩无遮挡| 青春草视频在线免费观看| 十分钟在线观看高清视频www| 熟妇人妻不卡中文字幕| 亚洲欧美成人综合另类久久久| 国产亚洲一区二区精品| 街头女战士在线观看网站| 51国产日韩欧美| 亚洲精品aⅴ在线观看| 99久久精品国产国产毛片| 波野结衣二区三区在线| 美女内射精品一级片tv| 成人免费观看视频高清| 男男h啪啪无遮挡| 十八禁网站网址无遮挡| xxxhd国产人妻xxx| 精品人妻熟女毛片av久久网站| av天堂久久9| 欧美变态另类bdsm刘玥| av一本久久久久| 青春草视频在线免费观看| 爱豆传媒免费全集在线观看| 一个人免费看片子| 一本色道久久久久久精品综合| 中文字幕亚洲精品专区| 最黄视频免费看| 亚洲成人一二三区av| 只有这里有精品99| 免费看av在线观看网站| 在线观看免费日韩欧美大片| 欧美丝袜亚洲另类| 日本色播在线视频| 久久久久久久国产电影| 精品一区二区三区四区五区乱码 | 日本av免费视频播放| 青春草国产在线视频| freevideosex欧美| 三级国产精品片| 一级,二级,三级黄色视频| 国产 精品1| 纵有疾风起免费观看全集完整版| 一本久久精品| 日韩成人伦理影院| www.色视频.com| 毛片一级片免费看久久久久| videos熟女内射| 你懂的网址亚洲精品在线观看| 多毛熟女@视频| 少妇人妻精品综合一区二区| 亚洲精品美女久久av网站| 亚洲色图 男人天堂 中文字幕 | 侵犯人妻中文字幕一二三四区| 亚洲成av片中文字幕在线观看 | 久久久久久久亚洲中文字幕| 亚洲av日韩在线播放| 欧美精品国产亚洲| 国产成人欧美| 亚洲成人av在线免费| 自拍欧美九色日韩亚洲蝌蚪91| 韩国av在线不卡| 大陆偷拍与自拍| 春色校园在线视频观看| 亚洲三级黄色毛片| 男女啪啪激烈高潮av片| 校园人妻丝袜中文字幕| 久久99热6这里只有精品| 久久鲁丝午夜福利片| 国产男人的电影天堂91| 亚洲av综合色区一区| 免费看光身美女| 又粗又硬又长又爽又黄的视频| 三级国产精品片| 精品国产一区二区三区久久久樱花| 亚洲欧洲精品一区二区精品久久久 | 黄色视频在线播放观看不卡| 精品酒店卫生间| 色哟哟·www| 男人舔女人的私密视频| 日韩人妻精品一区2区三区| 91精品伊人久久大香线蕉| 久久婷婷青草| 草草在线视频免费看| 天天躁夜夜躁狠狠躁躁| 一级毛片 在线播放| 国产亚洲精品第一综合不卡 | 亚洲欧美成人精品一区二区| 人人妻人人添人人爽欧美一区卜| 国产精品.久久久| av卡一久久| 亚洲成色77777| 午夜老司机福利剧场| 中文字幕人妻丝袜制服| 国产精品久久久久久精品电影小说| 国产永久视频网站| 国产69精品久久久久777片| 国产一区二区三区av在线| 亚洲成人一二三区av| 中文字幕人妻熟女乱码| 男女午夜视频在线观看 | 亚洲性久久影院| 校园人妻丝袜中文字幕| 免费高清在线观看日韩| 女性被躁到高潮视频| 中文天堂在线官网| 在线观看www视频免费| 国产熟女午夜一区二区三区| 亚洲国产精品国产精品| 日韩中文字幕视频在线看片| 考比视频在线观看| 精品少妇久久久久久888优播| 亚洲中文av在线| 欧美日韩国产mv在线观看视频| 免费观看av网站的网址| 免费黄色在线免费观看| 国产精品成人在线| 丝瓜视频免费看黄片| 成人国语在线视频| 赤兔流量卡办理| 制服人妻中文乱码| 欧美激情极品国产一区二区三区 | 91午夜精品亚洲一区二区三区| 国产日韩欧美视频二区| 国产极品粉嫩免费观看在线| 国产亚洲精品第一综合不卡 | 亚洲精品美女久久久久99蜜臀 | 国产永久视频网站| 亚洲av综合色区一区| 免费播放大片免费观看视频在线观看| 国产色爽女视频免费观看| 国产激情久久老熟女| 熟女av电影| 亚洲色图综合在线观看| 肉色欧美久久久久久久蜜桃| 狂野欧美激情性bbbbbb| 波多野结衣一区麻豆| av线在线观看网站| 又粗又硬又长又爽又黄的视频| 久久久欧美国产精品| 免费大片18禁| 国产高清不卡午夜福利| 欧美日韩av久久| 国产精品成人在线| 伊人久久国产一区二区| 午夜激情久久久久久久| 亚洲性久久影院| 在线观看免费高清a一片| 日本免费在线观看一区| 少妇熟女欧美另类| 亚洲欧美成人综合另类久久久| 国产精品麻豆人妻色哟哟久久| 欧美国产精品一级二级三级| 在线天堂中文资源库| 人妻人人澡人人爽人人| 午夜日本视频在线| 熟妇人妻不卡中文字幕| 久久人人爽人人爽人人片va| 亚洲,欧美,日韩| 精品卡一卡二卡四卡免费| 亚洲av日韩在线播放| 一边摸一边做爽爽视频免费| 一区在线观看完整版| 国产日韩欧美亚洲二区| 激情五月婷婷亚洲| 成人免费观看视频高清| av女优亚洲男人天堂| 街头女战士在线观看网站| 黑人巨大精品欧美一区二区蜜桃 | 中文字幕制服av| 男人操女人黄网站| tube8黄色片| 丰满乱子伦码专区| 性高湖久久久久久久久免费观看| 女性被躁到高潮视频| 日本与韩国留学比较| 老熟女久久久| 97在线视频观看| 久久鲁丝午夜福利片| 亚洲精品国产av成人精品| 亚洲激情五月婷婷啪啪| 久久久久久人妻| 国产成人精品婷婷| 不卡视频在线观看欧美| av不卡在线播放| 久久99精品国语久久久| av黄色大香蕉| 成人影院久久| 久久久久久久久久人人人人人人| 最近2019中文字幕mv第一页| 又大又黄又爽视频免费| 亚洲丝袜综合中文字幕| 高清不卡的av网站| 国产免费一级a男人的天堂| 妹子高潮喷水视频| 中国三级夫妇交换| 色5月婷婷丁香| 亚洲国产最新在线播放| 国产黄色免费在线视频| 国产乱人偷精品视频| 有码 亚洲区| 欧美日本中文国产一区发布| 老司机影院成人| 如日韩欧美国产精品一区二区三区| 久久精品国产鲁丝片午夜精品| 少妇的逼好多水| 日韩,欧美,国产一区二区三区| 大香蕉97超碰在线| 亚洲色图 男人天堂 中文字幕 | 久久精品久久久久久噜噜老黄| 午夜福利视频在线观看免费| 亚洲情色 制服丝袜| 国产熟女欧美一区二区| 三级国产精品片| 亚洲av.av天堂| 亚洲精品一二三| 久久精品国产综合久久久 | 日韩制服丝袜自拍偷拍| 一级毛片电影观看| 免费av不卡在线播放| 久久精品夜色国产| 精品一区二区免费观看| 日韩在线高清观看一区二区三区| 精品卡一卡二卡四卡免费| 91午夜精品亚洲一区二区三区| 免费黄网站久久成人精品| 国产亚洲午夜精品一区二区久久| 捣出白浆h1v1| 老司机影院成人| 美女主播在线视频| 亚洲精品久久成人aⅴ小说| 日日摸夜夜添夜夜爱| 成人毛片60女人毛片免费| 久热久热在线精品观看| 国产国拍精品亚洲av在线观看| 黄色配什么色好看| 国产精品99久久99久久久不卡 | 成年人免费黄色播放视频| 久久99热这里只频精品6学生| 亚洲久久久国产精品| 国产成人av激情在线播放| 黄色配什么色好看| 日韩免费高清中文字幕av| 天堂中文最新版在线下载| 久久久久精品性色| 亚洲一区二区三区欧美精品| a级毛色黄片| 亚洲美女黄色视频免费看| a级毛色黄片| 只有这里有精品99| 国产精品国产三级国产专区5o| 这个男人来自地球电影免费观看 | 99九九在线精品视频| 亚洲人成77777在线视频| 亚洲精品国产av成人精品| 人成视频在线观看免费观看| 下体分泌物呈黄色| 亚洲精品视频女| 麻豆精品久久久久久蜜桃| 日本与韩国留学比较| 中文字幕亚洲精品专区| 精品一区二区免费观看| 亚洲国产毛片av蜜桃av| 午夜久久久在线观看| 熟女av电影| 国产1区2区3区精品| 国产av码专区亚洲av| 曰老女人黄片| 只有这里有精品99| 亚洲国产成人一精品久久久| 日日撸夜夜添| h视频一区二区三区| 9色porny在线观看| videosex国产| 大香蕉97超碰在线| 国产黄色免费在线视频| 欧美成人精品欧美一级黄| av片东京热男人的天堂| 精品视频人人做人人爽| 伦理电影免费视频| www.av在线官网国产| 夜夜骑夜夜射夜夜干| 亚洲一码二码三码区别大吗| 99热6这里只有精品| 久久精品国产自在天天线| 亚洲少妇的诱惑av| 激情五月婷婷亚洲| 肉色欧美久久久久久久蜜桃| 中文字幕亚洲精品专区| 亚洲欧洲精品一区二区精品久久久 | 亚洲四区av| 最新中文字幕久久久久| 熟女av电影| 亚洲国产色片| 极品人妻少妇av视频| 99re6热这里在线精品视频| 黄色视频在线播放观看不卡| 七月丁香在线播放| 免费大片黄手机在线观看| 亚洲精品第二区| 大码成人一级视频| 日韩熟女老妇一区二区性免费视频| 99热这里只有是精品在线观看| 国产亚洲欧美精品永久| 90打野战视频偷拍视频| 国产亚洲一区二区精品| 九色成人免费人妻av| 欧美最新免费一区二区三区| 婷婷成人精品国产| 国产片内射在线|