• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    使用GTC-P應(yīng)用評(píng)估曙光E級(jí)原型機(jī)的性能*

    2020-03-04 07:56:48王一超WilliamTang林新華

    王一超,胡 航,William Tang,王 蓓,林新華

    (1.上海交通大學(xué)高性能計(jì)算中心,上海 200240; 2.普林斯頓大學(xué)等離子體物理實(shí)驗(yàn)室,新澤西州普林斯頓 08540)

    1 引言

    超級(jí)計(jì)算機(jī)被廣泛應(yīng)用于天氣預(yù)報(bào)、基因分析、天體模擬、核物理等高科技領(lǐng)域,對(duì)這些研究有著不可或缺的關(guān)鍵性作用。鑒于當(dāng)前的國(guó)際形勢(shì),我國(guó)大力推動(dòng)國(guó)產(chǎn)超級(jí)計(jì)算機(jī)的研制,“十三五”計(jì)劃中的3臺(tái)E級(jí)超級(jí)計(jì)算機(jī)原型系統(tǒng)——曙光、神威、天河原型機(jī)現(xiàn)已全部交付。其中曙光E級(jí)原型機(jī)是由中科曙光研制,采用CPU+加速器的異構(gòu)架構(gòu)。CPU采用的是AMD授權(quán)的海光x86處理器,加速器采用的是海光深度計(jì)算器DCU(Deep Computing Unit)加速卡[1]。

    本文的工作主要分2部分:(1)采用基準(zhǔn)測(cè)試集(Benchmark Suite)對(duì)曙光E級(jí)原型機(jī)(以下簡(jiǎn)稱原型機(jī))進(jìn)行了性能評(píng)測(cè),測(cè)試了其浮點(diǎn)計(jì)算能力、訪存帶寬、訪存延遲等關(guān)鍵性能指標(biāo),并將其CPU部分與主流的Intel Xeon Gold 6148進(jìn)行對(duì)比;(2)將由普林斯頓大學(xué)開發(fā)的著名高性能計(jì)算應(yīng)用GTC-P(Gyrokinetic Toroidal Code at Princeton )[2]移植到原型機(jī)上,進(jìn)行了同構(gòu)和異構(gòu)的并行測(cè)試,并與Intel Xeon Gold 6148和NVIDIA V100進(jìn)行對(duì)比。

    本文有以下3個(gè)主要貢獻(xiàn):

    (1)對(duì)原型機(jī)上的Hygon 7185處理器進(jìn)行了基準(zhǔn)測(cè)試,結(jié)合已公開的資料,完善并明確了該處理器的基礎(chǔ)性能指標(biāo)。通過(guò)與Intel主流平臺(tái)的對(duì)比,為在原型機(jī)CPU上進(jìn)行應(yīng)用移植提供了性能分析依據(jù)。

    (2)基于GTC-P應(yīng)用在原型機(jī)CPU上移植后的性能表現(xiàn),并對(duì)比Intel主流平臺(tái),分析了該高性能計(jì)算應(yīng)用在Hygon平臺(tái)上的性能瓶頸,從而評(píng)估了原型機(jī)CPU的實(shí)際性能。

    (3)通過(guò)使用ROCm HIP模型將CUDA版本的GTC-P移植到原型機(jī)的加速器DCU上,并與最新GPU平臺(tái)NVIDIA V100進(jìn)行了性能對(duì)比,評(píng)估DCU的應(yīng)用可移植性和實(shí)際性能。

    Figure 1 Diagram of Sugon exascale prototype’s node architecture圖1 曙光E級(jí)原型機(jī)結(jié)點(diǎn)架構(gòu)示意圖

    2 背景介紹

    本文將從GTC-P應(yīng)用、曙光E級(jí)原型機(jī)架構(gòu)、CPU和加速卡的硬件軟件信息幾個(gè)方面進(jìn)行研究背景介紹。

    2.1 GTC-P應(yīng)用

    GTC-P是由普林斯頓大學(xué)等離子體物理實(shí)驗(yàn)室開發(fā)的質(zhì)點(diǎn)網(wǎng)格法PIC(Particle-In-Cell)程序。該程序具有極佳的可擴(kuò)展性,在許多超級(jí)計(jì)算機(jī)上進(jìn)行了性能測(cè)試,并已入選美國(guó)NERSC國(guó)家超級(jí)計(jì)算中心的基準(zhǔn)測(cè)試集,具有代表意義[3]。

    其原理為通過(guò)求解5D的Vlasov-Poisson方程來(lái)模擬粒子和等離子在托克馬克裝置中的運(yùn)動(dòng)狀態(tài)。在每個(gè)時(shí)間步中主要執(zhí)行6個(gè)kernel 函數(shù):(1)Charge:通過(guò)4點(diǎn)陀螺平均法求解粒子到網(wǎng)絡(luò)的電荷沉積;(2)Poisson:求解陀螺動(dòng)力學(xué)泊松方程;(3)Field:計(jì)算網(wǎng)格電場(chǎng);(4)Smooth:平滑網(wǎng)格電勢(shì)和電荷;(5)Push:計(jì)算電場(chǎng)對(duì)粒子的作用力,更新粒子的相空間位置;(6)Shift:將被移動(dòng)的粒子復(fù)制到緩沖區(qū),并移動(dòng)到相應(yīng)進(jìn)程[4],PIC算法中粒子與網(wǎng)格數(shù)的比例大約在100~100 000之間[5]。

    2.2 曙光E級(jí)原型機(jī)

    2.2.1 總體架構(gòu)

    曙光E級(jí)原型機(jī)共有512個(gè)結(jié)點(diǎn),1 024顆Hygon處理器和512塊DCU加速卡。各結(jié)點(diǎn)之間使用200 Gbps的高速網(wǎng)絡(luò),采用6D-Torus的方式實(shí)現(xiàn)高維互連。

    每個(gè)結(jié)點(diǎn)有2顆Hygon 7185處理器和1塊DCU加速卡,256 GB的DDR4內(nèi)存,240 GB的M.2 SSD 硬盤。具體架構(gòu)如圖1所示。

    2.2.2 海光CPU

    原型機(jī)CPU使用的是AMD授權(quán)的Hygon 7185(后用Hygon Dhyana表示)。該系列芯片是海光公司根據(jù)AMD授權(quán)的EPYC 7001系列“Naples”芯片開發(fā)的針對(duì)中國(guó)市場(chǎng)的新系列芯片,由海光和AMD的合資公司HMC生產(chǎn)。由于“Naples”芯片是于2017年發(fā)布的,本文選取了與其同一時(shí)段發(fā)布的目前主流的商用處理器x86架構(gòu)的Intel Xeon Gold 6148(后用Intel Skylake表示)進(jìn)行對(duì)比測(cè)試,其硬件及軟件信息如表1所示。

    2.2.3 海光DCU

    原型機(jī)的加速卡為海光公司結(jié)合AMD授權(quán)的GPU技術(shù)制造的DCU。為了解其與目前最新GPU的性能差異,本文用NVIDIA 公司的Tesla V100來(lái)與其對(duì)比,其軟硬件信息如表2所示。

    Table 2 Comparison of accelerator test platforms表2 加速器測(cè)試平臺(tái)對(duì)比

    曙光原型機(jī)的DCU加速卡上使用的編程模型為AMD公司開發(fā)的ROCm(Radeon Open Computing platform)HIP(Heterogeous-compute Interface for Portability)模型。這種模型是用于所有AMD GPU的可替代CUDA的模型,可以實(shí)現(xiàn)在源碼級(jí)別上對(duì)CUDA程序的支持,其技術(shù)棧較多地參考了CUDA技術(shù)棧[6]。

    HIP支持C++語(yǔ)言特性,包括模板、C++11 lambdas、類、命名空間等。HIP讓開發(fā)者可以將CUDA程序轉(zhuǎn)換成可移植的C++程序,轉(zhuǎn)換后的程序在NVIDIA和AMD GPU上都可以編譯運(yùn)行,只需要在編譯時(shí)指定平臺(tái)參數(shù)即可。HIP相關(guān)的運(yùn)行組件都是已編譯好可以直接鏈接使用的動(dòng)態(tài)庫(kù)。

    3 基準(zhǔn)測(cè)試結(jié)果

    本節(jié)首先用基準(zhǔn)測(cè)試集對(duì)原型機(jī)及對(duì)比平臺(tái)進(jìn)行了微架構(gòu)測(cè)試:使用HPL[7]測(cè)試雙精度浮點(diǎn)計(jì)算能力,使用STREAM[8]和LMbench[9]測(cè)試訪存帶寬及延遲。這些性能數(shù)據(jù)可對(duì)GTC-P測(cè)試0進(jìn)行指導(dǎo)和分析。

    3.1 雙精度浮點(diǎn)計(jì)算能力

    在評(píng)估超級(jí)計(jì)算機(jī)的性能時(shí),通常會(huì)優(yōu)選雙精度浮點(diǎn)計(jì)算能力作為判斷,因此本文選擇HPL基準(zhǔn)測(cè)試來(lái)顯示其性能,測(cè)試結(jié)果如表3所示。

    Table 3 Results of HPL 表3 HPL基準(zhǔn)測(cè)試結(jié)果 GFLOPS

    由于Hygon Dhyana處理器支持AVX2指令集,我們初始認(rèn)為該處理器的向量化位寬為256 bit,但其實(shí)測(cè)雙精度浮點(diǎn)計(jì)算性能僅為理論值的39.6%。我們隨后進(jìn)行了AVX2指令的吞吐量測(cè)試以驗(yàn)證結(jié)果的正確性。

    結(jié)果顯示在使用相同的AVX2指令時(shí),Hygon Dhyana的吞吐量?jī)H為Intel Skylake的0.5倍,故我們推測(cè)其雙精度向量化位寬為128 bit,其Linpack效率為79.2%。

    3.2 訪存帶寬與延遲

    我們選擇的是MPI+OpenMP版的STREAM測(cè)試程序。(1)測(cè)試單路訪存帶寬時(shí),設(shè)置MPI進(jìn)程數(shù)為1,OpenMP線程數(shù)為單socket核心數(shù),使用GOMP_CPU_AFFINITY參數(shù)將OpenMP線程綁定到對(duì)應(yīng)的核心上;(2)測(cè)試雙路訪存帶寬時(shí),設(shè)置MPI進(jìn)程數(shù)為2,分別綁定到對(duì)應(yīng)的socket上,在同一socket內(nèi)使用OpenMP線程并行,同樣使用GOMP_CPU_AFFINITY參數(shù)綁定。得到的不同平臺(tái)的內(nèi)存訪問(wèn)帶寬如圖2a所示。

    由于我們?cè)诠_資料中未查找到Hygon Dhyana的內(nèi)存通道數(shù),根據(jù)我們實(shí)測(cè)的訪存帶寬,Hygon Dhyana的Triad帶寬是Intel Skylake的1.49倍,而Intel Skylake的內(nèi)存通道為6通道,故我們推測(cè)Hygon Dhyana的內(nèi)存通道為8通道。

    Figure 2 Memory bandwidth and access latency of Hygon Dhyana and Intel Skylake圖2 Hygon Dhyana、Intel Skylake訪存帶寬與延遲

    對(duì)于CPU訪存性能來(lái)說(shuō),除了訪存帶寬之外,訪存延遲也是一項(xiàng)重要指標(biāo)。我們使用LM-bench基準(zhǔn)測(cè)試對(duì)比了不同平臺(tái)各層次的訪存延遲,結(jié)果如圖2b所示。

    Table 1 Comparison of CPU test platforms (open data)表1 CPU測(cè)試平臺(tái)對(duì)比(公開數(shù)據(jù))

    從圖2中可以看到,Hygon Dhyana的訪存延遲在48 KB、512 KB、8 MB時(shí)突然增大,隨后穩(wěn)定。我們基于Linux系統(tǒng)工具,結(jié)合訪存延遲實(shí)驗(yàn)觀察到的現(xiàn)象得到了Hygon Dhyana的各級(jí)緩存大小,具體的各級(jí)內(nèi)存子系統(tǒng)大小及訪問(wèn)延遲結(jié)果如表4所示。

    綜上所述,由于Hygon Dhyana比Skylake具有更高的帶寬和更低的延遲,Hygon Dhyana對(duì)于訪存密集型應(yīng)用在理論性能上更具優(yōu)勢(shì)。接下來(lái),我們將利用實(shí)際應(yīng)用性能測(cè)評(píng)對(duì)其進(jìn)行實(shí)驗(yàn)驗(yàn)證。

    4 同構(gòu)并行GTC-P

    4.1 移植

    Hygon Dhyana處理器兼容x86_64指令集和AVX2指令集,其軟件生態(tài)良好,支持開源編譯器GCC、Intel編譯器ICC和AMD基于Clang開發(fā)的HCC編譯器。對(duì)于MPI庫(kù),曙光支持Intel IMPI、Mvapich2、OpenMPI,方便了GTC-P的移植。

    在GTC-P的同構(gòu)并行移植過(guò)程中,我們發(fā)現(xiàn)使用Intel ICC編譯器和對(duì)應(yīng)的IMPI得到的性能最好,因此在進(jìn)行CPU性能對(duì)比測(cè)試時(shí),Hygon平臺(tái)和Intel平臺(tái)都選用的是Intel ICC編譯器和Intel MPI并行庫(kù)。

    GTC-P程序有A、B、C、D 4個(gè)不同算例,本次實(shí)驗(yàn)中主要用到的是算例C和算例D,其具體描述如表5所示。

    Table 5 Parameters of different examples of GTC-P表5 GTC-P不同算例的參數(shù)設(shè)置

    4.2 單核性能分析

    我們首先在不同平臺(tái)上運(yùn)行了單MPI進(jìn)程單OpenMP線程的GTC-P程序,采用的算例是算例C。記錄其運(yùn)行時(shí)間,以確定在不同平臺(tái)上熱點(diǎn)kernel函數(shù)及性能表現(xiàn),結(jié)果如圖3a所示。

    測(cè)試結(jié)果顯示,單進(jìn)程的GTC-P在Hygon Dhyana平臺(tái)上的運(yùn)行時(shí)間是Skylake的1.6倍,其中主要耗時(shí)是在Charge函數(shù)和Push函數(shù),這2個(gè)函數(shù)的運(yùn)行時(shí)間占整個(gè)應(yīng)用總運(yùn)行時(shí)間的85%以上。

    由于Hygon Dhyana處理器的向量化位寬只有128 bit,是Intel Skylake的1/4,同一時(shí)間能進(jìn)行的浮點(diǎn)計(jì)算只有Intel Skylake的1/4,故計(jì)算部分耗時(shí)會(huì)顯著增多。另一方面,Hygon Dhyana的L3 Cache只有Intel Skylake的29%,故GTC-P中的不規(guī)則訪存密集部分在Hygon Dhyana上會(huì)有更多的主存訪存操作導(dǎo)致用時(shí)增多。

    我們發(fā)現(xiàn)Charge和Push函數(shù)的計(jì)算強(qiáng)度均小于2,結(jié)合Hygon Dhyana的峰值浮點(diǎn)性能和訪存帶寬可知,這2個(gè)函數(shù)的性能主要受限于訪存性能,因此后續(xù)的原型機(jī)上GTC-P的優(yōu)化可以從改善訪存方面實(shí)現(xiàn)。

    Figure 3 Runtime comparison of GTC-P on two platforms圖3 GTC-P在2種平臺(tái)上的運(yùn)行時(shí)間對(duì)比

    4.3 多核性能分析

    針對(duì)GTC-P程序在不同平臺(tái)上的并行性能做了進(jìn)一步測(cè)試,測(cè)試了用MPI和OpenMP混合的GTC-P在曙光單結(jié)點(diǎn)和Intel Skylake上的運(yùn)行情況,用numactl參數(shù)將MPI進(jìn)程綁定到NUMA結(jié)點(diǎn)上,并按照單MPI進(jìn)程的運(yùn)行時(shí)間進(jìn)行了歸一化,結(jié)果如圖4a所示??梢钥吹?在曙光平臺(tái)上,當(dāng)使用8個(gè)MPI進(jìn)程,每個(gè)MPI進(jìn)程創(chuàng)建8個(gè)OpenMP線程時(shí)運(yùn)行時(shí)間最短,這是因?yàn)镠ygon處理器有2個(gè)socket,每個(gè)socket有4個(gè)NUMA結(jié)點(diǎn),在這種模式下,每個(gè)MPI進(jìn)程正好綁定到1個(gè)NUMA結(jié)點(diǎn)上,各OpenMP線程之間的通信都是在同一個(gè)NUMA中,基本不會(huì)有訪存性能的下降,所以總體性能最優(yōu)。

    Table 4 Test results of memory subsystem size and access latency 表4 內(nèi)存子系統(tǒng)大小及訪問(wèn)延遲測(cè)試結(jié)果

    隨后我們進(jìn)行了在不同平臺(tái)上使用雙路并行運(yùn)行GTC-P的測(cè)試。Hygon Dhyana上使用8個(gè)MPI進(jìn)程8個(gè)OpenMP線程,Intel Skylake上使用2個(gè)MPI進(jìn)程20個(gè)OpenMP線程,將MPI進(jìn)程綁定到NUMA結(jié)點(diǎn)上,在同一NUMA結(jié)點(diǎn)內(nèi)使用OpenMP線程進(jìn)行并行。測(cè)試結(jié)果如圖3b所示,在使用2個(gè)socket加速時(shí),Hygon Dhyana處理器上GTC-P的用時(shí)是Intel Skylake的85%,性能是Intel Skylake的1.18倍。

    在使用雙路并行時(shí),由于Hygon Dhyana處理器雙路訪存帶寬是Intel Skylake的1.49倍,故Charge和Push 2個(gè)有較多不規(guī)則訪存操作的函數(shù)用時(shí)均少于Intel Skylake的,總體性能Hygon Dhyana略微優(yōu)于Intel Skylake。

    Figure 4 Acceleration performance and strong scalability of GTC-P on Sugon platform圖4 GTC-P在曙光平臺(tái)多核加速性能及多結(jié)點(diǎn)強(qiáng)可擴(kuò)展性

    4.4 多結(jié)點(diǎn)擴(kuò)展性分析

    為了更好地顯示原型機(jī)的性能,還進(jìn)行了多結(jié)點(diǎn)的MPI并行測(cè)試。在單個(gè)結(jié)點(diǎn)內(nèi)使用前文中的MPI+OpenMP配置進(jìn)行并行,在多結(jié)點(diǎn)之間使用MPI進(jìn)行并行。在本次測(cè)試中,由于算例C在較多結(jié)點(diǎn)并行運(yùn)行時(shí)的時(shí)間較短,選用了更大的算例D。由于原型機(jī)上單個(gè)賬號(hào)最多能使用30個(gè)結(jié)點(diǎn),本文的擴(kuò)展性測(cè)試只做到了30個(gè)結(jié)點(diǎn),測(cè)試結(jié)果如圖4b所示。

    從圖4b中可以發(fā)現(xiàn),在并行運(yùn)行的結(jié)點(diǎn)數(shù)不超過(guò)10時(shí),GTC-P的加速比基本與理論加速比吻合,大致呈線性增加趨勢(shì),說(shuō)明GTC-P在原型機(jī)上多結(jié)點(diǎn)運(yùn)行時(shí)有很好的強(qiáng)可擴(kuò)展性;在超過(guò)10個(gè)結(jié)點(diǎn)后,總的運(yùn)行時(shí)間緩慢減少,說(shuō)明此時(shí)結(jié)點(diǎn)之間的通信時(shí)間隨著結(jié)點(diǎn)的增多而逐漸占據(jù)主導(dǎo),能通過(guò)并行運(yùn)行減少的計(jì)算時(shí)間較少,再增加并行的結(jié)點(diǎn)數(shù)對(duì)整體性能影響不大,最后加速比大約是理論加速比的62%。這說(shuō)明原型機(jī)的200 Gbps 6D-Torus網(wǎng)絡(luò)對(duì)GTC-P這種有較多不規(guī)則訪存的應(yīng)用在較小規(guī)模的并行時(shí)有著較好的擴(kuò)展性,但規(guī)模較大時(shí)會(huì)由于結(jié)點(diǎn)間通信時(shí)間過(guò)長(zhǎng)導(dǎo)致性能提升不明顯。

    5 異構(gòu)并行GTC-P

    5.1 移植

    Hygon DCU加速卡采用的編程模型是AMD公司開發(fā)的HIP模型,與NVIDIA公司的CUDA編程模型相對(duì)應(yīng)[10]。其支持的并行庫(kù)中與CUDA相關(guān)的庫(kù)在Hygon DCU中支持的均為其轉(zhuǎn)換為HIP之后的庫(kù)。Hipify作為一款轉(zhuǎn)譯工具可以將CUDA API轉(zhuǎn)換成HIP API,并自動(dòng)添加頭文件等。由于該工具只進(jìn)行了字符串的替換,轉(zhuǎn)換后仍需要手動(dòng)修改少量代碼。

    除了基本的移植之外,在原CUDA版本的GTC-P程序中應(yīng)用了紋理內(nèi)存來(lái)提高程序中的大量局部空間操作的性能,但HIP編程模型目前還不支持紋理內(nèi)存,在移植時(shí)關(guān)閉了程序的紋理內(nèi)存功能,使用普通的共享內(nèi)存進(jìn)行存儲(chǔ)。

    5.2 性能分析

    本文使用算例C測(cè)試GPU版GTC-P在原型機(jī)上的性能,并將其DCU部分的運(yùn)行時(shí)間和PCIe通信時(shí)間與NVIDIA V100平臺(tái)的運(yùn)行時(shí)間作對(duì)比,分析其加速器的性能指標(biāo)。對(duì)于CPU部分,仍選擇前文中的最優(yōu)配置,并將MPI進(jìn)程綁定到對(duì)應(yīng)的NUMA結(jié)點(diǎn)上。GTC-P的各內(nèi)核函數(shù)在加速器上的運(yùn)行時(shí)間及通信時(shí)間如圖5所示。

    Figure 5 Runtime and communication time of GTC-P on Hygon DCU and NVIDIA V100圖5 GTC-P在Hygon DCU、 NVIDIA V100上的運(yùn)行時(shí)間和通信時(shí)間

    當(dāng)NVIDIA V100使用紋理內(nèi)存時(shí),GTC-P的整體性能在DCU上為在NVIDIA V100上的61%。其中,Charge函數(shù)的性能在DCU上為在NVIDIA V100上的38.3%,Push函數(shù)的性能在2個(gè)平臺(tái)上持平。根據(jù)前文中的硬件信息可知,DCU的雙精度浮點(diǎn)計(jì)算性能約為NVIDIA V100的73.1%,而Charge函數(shù)中為了避免數(shù)據(jù)沖突,使用了較多的重復(fù)計(jì)算操作,導(dǎo)致DCU的雙精度浮點(diǎn)計(jì)算的劣勢(shì)放大。Push函數(shù)中有大量的不規(guī)則訪存,對(duì)加速器的讀取帶寬要求較高,說(shuō)明DCU的內(nèi)部訪存性能與NVIDIA V100大致相當(dāng)。

    不使用紋理內(nèi)存時(shí),GTC-P在NVIDIA V100上的耗時(shí)明顯增加,達(dá)到了原來(lái)的1.29倍,僅為DCU上耗時(shí)的78.6%。其中Charge函數(shù)耗時(shí)是原來(lái)的1.28倍,Push函數(shù)耗時(shí)是原來(lái)的1.36倍,說(shuō)明GTC-P程序中有大量的局部空間操作,使用紋理內(nèi)存可以提高性能。后續(xù)實(shí)現(xiàn)HIP模型對(duì)紋理內(nèi)存的支持可以進(jìn)一步提高GTC-P在DCU上的性能表現(xiàn)。

    對(duì)于加速器的PCIe通信時(shí)間,Hygon DCU與NVIDIA V100大致相同,符合前文中測(cè)得的CPU與加速器之間的訪存帶寬。

    6 相關(guān)工作

    在CPU的基準(zhǔn)性能測(cè)試方面。Saini等[11]在基于Intel Haswell和Intel Ivy Bridge處理器的超級(jí)計(jì)算機(jī)上進(jìn)行了性能測(cè)試,使用了STREAM、LMbench、HPCC、HPL、HPCG等一系列基準(zhǔn)測(cè)試集和4個(gè)科學(xué)和工業(yè)應(yīng)用程序?qū)Ρ葍烧叩男阅?。McCormick教授等[12]團(tuán)隊(duì)針對(duì)x86多核NUMA架構(gòu)的處理器提出了一系列測(cè)量訪存性能的方法,并在Intel和AMD處理器上建立了相關(guān)的訪存性能模型。本文在曙光E級(jí)原型機(jī)的CPU性能測(cè)試上借鑒了其方法。

    在GTC-P應(yīng)用的移植和優(yōu)化方面。普林斯頓大學(xué)Wang等[13]在Mira、Sequoia、Hopper等超級(jí)計(jì)算機(jī)上進(jìn)行了GTC-P的移植和優(yōu)化,并評(píng)估了其可擴(kuò)展性。上海交通大學(xué)王一超等[4]利用OpenACC在神威“太湖之光”超級(jí)計(jì)算機(jī)上成功移植了GTC-P應(yīng)用并進(jìn)行了優(yōu)化。

    7 結(jié)束語(yǔ)

    本文首先面向曙光E級(jí)原型機(jī)進(jìn)行了性能測(cè)試,以指導(dǎo)GTC-P的移植,并與目前主流的CPU—Intel Xeon Gold 6148(Skylake)進(jìn)行了對(duì)比。本文測(cè)試了其浮點(diǎn)計(jì)算能力、內(nèi)存訪問(wèn)帶寬和延遲,發(fā)現(xiàn)Hygon 7185處理器的單socket實(shí)測(cè)浮點(diǎn)計(jì)算能力為209.5 GFLOPS,僅為Skylake的22.5%。在訪存帶寬及延遲方面,Hygon處理器的單socket訪存帶寬為126 GB/s,是Skylake的1.45倍;Hygon的L1、L2緩存訪存延遲略高于Skylake的,但L3緩存和主存的訪存延遲低于Skylake的。

    我們?cè)谑锕釫級(jí)原型機(jī)上分別移植了同構(gòu)并行和異構(gòu)并行的GTC-P。在CPU上,單核的GTC-P程序的性能是Intel Skylake的62.5%,主要原因是Hygon Dhyana的向量化位寬是Skylake的一半,以及Dhyana的L3高速緩存大小僅為Skylake的29%,導(dǎo)致GTC-P中許多不規(guī)則訪存操作耗時(shí)較多。在多結(jié)點(diǎn)擴(kuò)展性上,使用算例D運(yùn)行的GTC-P在超過(guò)10個(gè)結(jié)點(diǎn)后基本已經(jīng)充分加速,再增加結(jié)點(diǎn)數(shù)加速效果并不明顯,最后的加速比約為理論加速比的62%。在DCU上,通過(guò)HIP編程模型快速移植了GTC-P應(yīng)用,其整體性能達(dá)到了NVIDIA V100上整體性能的61%。

    国产精品 欧美亚洲| 久久精品成人免费网站| 99国产精品一区二区蜜桃av | 女人久久www免费人成看片| 欧美日本中文国产一区发布| 在线观看一区二区三区激情| 久久久久久人人人人人| 国产精品国产三级国产专区5o| 亚洲五月色婷婷综合| 黄色视频在线播放观看不卡| 国语对白做爰xxxⅹ性视频网站| 午夜91福利影院| 欧美性长视频在线观看| 黑人猛操日本美女一级片| 一级毛片电影观看| 免费av中文字幕在线| 国产精品 欧美亚洲| 国产视频首页在线观看| 国产激情久久老熟女| 国产男人的电影天堂91| 超色免费av| 天堂中文最新版在线下载| 母亲3免费完整高清在线观看| 超色免费av| 成年人黄色毛片网站| 日本午夜av视频| 久久九九热精品免费| 成人黄色视频免费在线看| 香蕉国产在线看| 欧美精品一区二区免费开放| 免费高清在线观看视频在线观看| 18在线观看网站| 大香蕉久久成人网| 国产一区二区三区av在线| 国产色视频综合| 观看av在线不卡| 黄色片一级片一级黄色片| 99精品久久久久人妻精品| 欧美成狂野欧美在线观看| 欧美精品一区二区免费开放| 别揉我奶头~嗯~啊~动态视频 | 1024视频免费在线观看| 嫁个100分男人电影在线观看 | 97人妻天天添夜夜摸| 国产精品一二三区在线看| 美女视频免费永久观看网站| 每晚都被弄得嗷嗷叫到高潮| 黄色 视频免费看| 97在线人人人人妻| 国产精品国产av在线观看| 国产成人一区二区在线| 一本一本久久a久久精品综合妖精| 人妻一区二区av| 夫妻性生交免费视频一级片| 色网站视频免费| 国产成人精品久久久久久| 亚洲国产精品一区二区三区在线| 精品福利永久在线观看| 一区二区三区精品91| 国产极品粉嫩免费观看在线| 亚洲国产av影院在线观看| 亚洲成国产人片在线观看| 国产亚洲午夜精品一区二区久久| 久久热在线av| 国精品久久久久久国模美| 91九色精品人成在线观看| 国产老妇伦熟女老妇高清| 久久久久国产精品人妻一区二区| 超碰97精品在线观看| 丝瓜视频免费看黄片| 国产免费又黄又爽又色| 两个人免费观看高清视频| 午夜福利免费观看在线| 51午夜福利影视在线观看| 最新的欧美精品一区二区| 别揉我奶头~嗯~啊~动态视频 | 男女高潮啪啪啪动态图| 国产女主播在线喷水免费视频网站| 久久久久久久久久久久大奶| 69精品国产乱码久久久| 国产97色在线日韩免费| 久久人人爽av亚洲精品天堂| 丰满少妇做爰视频| 亚洲精品一卡2卡三卡4卡5卡 | 欧美日韩国产mv在线观看视频| 精品福利观看| 91字幕亚洲| 欧美精品高潮呻吟av久久| 欧美老熟妇乱子伦牲交| 高清视频免费观看一区二区| 亚洲国产精品一区二区三区在线| 久久精品亚洲av国产电影网| 菩萨蛮人人尽说江南好唐韦庄| 国产精品欧美亚洲77777| 校园人妻丝袜中文字幕| 欧美性长视频在线观看| 曰老女人黄片| 欧美亚洲日本最大视频资源| 男女无遮挡免费网站观看| 亚洲精品美女久久久久99蜜臀 | 一区二区三区乱码不卡18| 国产精品免费视频内射| 纯流量卡能插随身wifi吗| 十八禁高潮呻吟视频| 日韩精品免费视频一区二区三区| 日韩精品免费视频一区二区三区| 老汉色av国产亚洲站长工具| 免费高清在线观看日韩| 久久精品国产亚洲av高清一级| 成年人黄色毛片网站| 各种免费的搞黄视频| 国产精品欧美亚洲77777| 少妇猛男粗大的猛烈进出视频| 老司机深夜福利视频在线观看 | 成人国产一区最新在线观看 | 亚洲成国产人片在线观看| 我的亚洲天堂| 欧美国产精品va在线观看不卡| 国产精品一二三区在线看| 男人舔女人的私密视频| 巨乳人妻的诱惑在线观看| 精品第一国产精品| 男男h啪啪无遮挡| 秋霞在线观看毛片| 午夜免费成人在线视频| 亚洲,欧美精品.| 国产一区二区三区综合在线观看| 亚洲黑人精品在线| 亚洲av成人精品一二三区| 亚洲av电影在线观看一区二区三区| 在线 av 中文字幕| 纯流量卡能插随身wifi吗| 国产欧美日韩一区二区三 | 久久精品aⅴ一区二区三区四区| 深夜精品福利| 狠狠婷婷综合久久久久久88av| 日韩av不卡免费在线播放| 少妇人妻 视频| 国产精品一区二区在线不卡| 婷婷色综合www| www.自偷自拍.com| 99国产精品免费福利视频| 欧美xxⅹ黑人| 精品国产乱码久久久久久小说| 成人18禁高潮啪啪吃奶动态图| 久久精品亚洲熟妇少妇任你| 婷婷成人精品国产| 亚洲人成网站在线观看播放| 欧美日韩亚洲综合一区二区三区_| 日本色播在线视频| 婷婷丁香在线五月| 日日夜夜操网爽| 精品少妇一区二区三区视频日本电影| 丁香六月天网| 亚洲中文av在线| 超色免费av| 免费久久久久久久精品成人欧美视频| 亚洲精品国产av成人精品| 每晚都被弄得嗷嗷叫到高潮| 国产xxxxx性猛交| 成人亚洲欧美一区二区av| 如日韩欧美国产精品一区二区三区| 高清av免费在线| 久久精品国产综合久久久| 在线观看www视频免费| 日韩 欧美 亚洲 中文字幕| 久久久国产精品麻豆| 观看av在线不卡| 国产日韩一区二区三区精品不卡| 五月天丁香电影| 亚洲图色成人| 91精品三级在线观看| 亚洲一区二区三区欧美精品| 婷婷丁香在线五月| av国产久精品久网站免费入址| 三上悠亚av全集在线观看| www.999成人在线观看| 又大又爽又粗| 国产男女内射视频| 在现免费观看毛片| 男女午夜视频在线观看| 国产在线免费精品| 欧美人与性动交α欧美精品济南到| 亚洲av电影在线观看一区二区三区| 狂野欧美激情性bbbbbb| 天天躁狠狠躁夜夜躁狠狠躁| 国产精品av久久久久免费| 精品一区二区三区四区五区乱码 | 亚洲成人手机| 18禁观看日本| 高清视频免费观看一区二区| 1024视频免费在线观看| 中文精品一卡2卡3卡4更新| 天天躁日日躁夜夜躁夜夜| 国产爽快片一区二区三区| 尾随美女入室| 亚洲精品日韩在线中文字幕| 高清av免费在线| 女人爽到高潮嗷嗷叫在线视频| 每晚都被弄得嗷嗷叫到高潮| 久久久欧美国产精品| 大型av网站在线播放| 99久久精品国产亚洲精品| 久久99热这里只频精品6学生| 秋霞在线观看毛片| 精品人妻在线不人妻| 精品免费久久久久久久清纯 | www.精华液| 夜夜骑夜夜射夜夜干| 亚洲专区中文字幕在线| 国产精品二区激情视频| 丝袜人妻中文字幕| 国产精品免费大片| 久久精品亚洲熟妇少妇任你| 亚洲精品一区蜜桃| 亚洲成av片中文字幕在线观看| 色精品久久人妻99蜜桃| 可以免费在线观看a视频的电影网站| 久久国产亚洲av麻豆专区| 日韩中文字幕欧美一区二区 | 免费av中文字幕在线| 国产老妇伦熟女老妇高清| 欧美av亚洲av综合av国产av| 人人妻人人澡人人爽人人夜夜| 观看av在线不卡| www.熟女人妻精品国产| 亚洲自偷自拍图片 自拍| 国产深夜福利视频在线观看| 人人妻人人澡人人爽人人夜夜| 精品熟女少妇八av免费久了| 黑人欧美特级aaaaaa片| 亚洲五月色婷婷综合| 午夜福利乱码中文字幕| 免费观看av网站的网址| 99热网站在线观看| 91九色精品人成在线观看| 91字幕亚洲| 看十八女毛片水多多多| 嫩草影视91久久| 欧美老熟妇乱子伦牲交| 在线看a的网站| 日本wwww免费看| 91精品伊人久久大香线蕉| 亚洲国产成人一精品久久久| 国产91精品成人一区二区三区 | 一区二区三区激情视频| 国产又爽黄色视频| 国产福利在线免费观看视频| 久久精品久久久久久噜噜老黄| 久久热在线av| 一区二区三区激情视频| 亚洲精品美女久久久久99蜜臀 | 黄色 视频免费看| 亚洲av日韩精品久久久久久密 | 美女福利国产在线| 欧美日韩亚洲高清精品| 国产精品一区二区在线观看99| 视频区图区小说| 亚洲成人手机| 国产在线一区二区三区精| 国产在线免费精品| 在线观看免费午夜福利视频| 丁香六月欧美| 久久久久久久大尺度免费视频| 成人免费观看视频高清| 又大又黄又爽视频免费| 午夜福利视频精品| 三上悠亚av全集在线观看| 亚洲中文av在线| 色婷婷av一区二区三区视频| 人妻人人澡人人爽人人| 午夜福利视频在线观看免费| 一级毛片黄色毛片免费观看视频| av片东京热男人的天堂| 99九九在线精品视频| 精品亚洲成国产av| 久久精品国产亚洲av高清一级| 啦啦啦在线观看免费高清www| 欧美性长视频在线观看| 亚洲欧美色中文字幕在线| 欧美精品人与动牲交sv欧美| 欧美精品av麻豆av| 一边摸一边做爽爽视频免费| 久久av网站| 在线观看免费日韩欧美大片| 国产视频首页在线观看| 精品国产超薄肉色丝袜足j| 日本91视频免费播放| www.自偷自拍.com| 久久久精品区二区三区| 欧美性长视频在线观看| 免费久久久久久久精品成人欧美视频| 如日韩欧美国产精品一区二区三区| 成人亚洲精品一区在线观看| 精品一品国产午夜福利视频| 中文字幕人妻丝袜一区二区| 国产精品成人在线| 人人澡人人妻人| 好男人电影高清在线观看| 51午夜福利影视在线观看| 欧美国产精品一级二级三级| 在线观看www视频免费| 久久精品国产亚洲av涩爱| 日本一区二区免费在线视频| 91精品伊人久久大香线蕉| 国产亚洲精品第一综合不卡| 亚洲七黄色美女视频| 日本猛色少妇xxxxx猛交久久| 黄网站色视频无遮挡免费观看| 久久亚洲精品不卡| 欧美精品人与动牲交sv欧美| 国产人伦9x9x在线观看| 亚洲三区欧美一区| 老汉色av国产亚洲站长工具| 精品国产一区二区久久| 久久精品亚洲熟妇少妇任你| 亚洲视频免费观看视频| 只有这里有精品99| 国产99久久九九免费精品| 亚洲精品国产av蜜桃| 天天添夜夜摸| √禁漫天堂资源中文www| 亚洲欧美激情在线| 国产欧美日韩精品亚洲av| 亚洲国产av影院在线观看| av不卡在线播放| 国产av一区二区精品久久| 亚洲色图 男人天堂 中文字幕| 99久久综合免费| 国产淫语在线视频| 日韩av在线免费看完整版不卡| 精品一区在线观看国产| 国产无遮挡羞羞视频在线观看| 亚洲成色77777| 中文精品一卡2卡3卡4更新| 亚洲三区欧美一区| 久久精品人人爽人人爽视色| 最新在线观看一区二区三区 | 亚洲成人免费av在线播放| 亚洲七黄色美女视频| 成人影院久久| 午夜精品国产一区二区电影| 香蕉丝袜av| 一边亲一边摸免费视频| 九色亚洲精品在线播放| 捣出白浆h1v1| 99热国产这里只有精品6| 老司机亚洲免费影院| 亚洲第一青青草原| 亚洲人成电影免费在线| 人妻人人澡人人爽人人| 日韩电影二区| 中文欧美无线码| 9191精品国产免费久久| 日韩视频在线欧美| 亚洲美女黄色视频免费看| 亚洲成人手机| 久久亚洲精品不卡| 欧美日韩视频精品一区| 王馨瑶露胸无遮挡在线观看| 亚洲精品久久成人aⅴ小说| 两性夫妻黄色片| 欧美 亚洲 国产 日韩一| 久久亚洲精品不卡| 嫁个100分男人电影在线观看 | 久久精品国产亚洲av涩爱| 欧美黄色淫秽网站| 国产精品久久久久久精品电影小说| 99re6热这里在线精品视频| 午夜激情久久久久久久| 老司机亚洲免费影院| 亚洲精品美女久久久久99蜜臀 | 涩涩av久久男人的天堂| 亚洲激情五月婷婷啪啪| 国产免费视频播放在线视频| 男女无遮挡免费网站观看| 成年人黄色毛片网站| 午夜日韩欧美国产| 国产精品久久久人人做人人爽| 国产极品粉嫩免费观看在线| 久久久久网色| 免费在线观看完整版高清| 一本色道久久久久久精品综合| 99热全是精品| 在线天堂中文资源库| 日韩大码丰满熟妇| 99久久综合免费| 午夜免费成人在线视频| 99精国产麻豆久久婷婷| 制服人妻中文乱码| 精品亚洲乱码少妇综合久久| 一级片免费观看大全| 真人做人爱边吃奶动态| 国产主播在线观看一区二区 | 韩国高清视频一区二区三区| 免费高清在线观看日韩| 久久午夜综合久久蜜桃| 在线观看人妻少妇| 成人手机av| 欧美国产精品va在线观看不卡| 国产在线视频一区二区| 国产男女内射视频| 91字幕亚洲| 汤姆久久久久久久影院中文字幕| 91九色精品人成在线观看| 国产成人一区二区在线| 中文精品一卡2卡3卡4更新| 啦啦啦啦在线视频资源| 免费观看av网站的网址| 高潮久久久久久久久久久不卡| 精品国产一区二区三区四区第35| 波多野结衣一区麻豆| 日本欧美国产在线视频| 看免费成人av毛片| 午夜久久久在线观看| 久久人人97超碰香蕉20202| 男的添女的下面高潮视频| 国产成人精品久久二区二区免费| 国产不卡av网站在线观看| 久久久精品国产亚洲av高清涩受| 侵犯人妻中文字幕一二三四区| 精品国产乱码久久久久久男人| 午夜免费鲁丝| 午夜福利乱码中文字幕| e午夜精品久久久久久久| 日韩中文字幕欧美一区二区 | 我要看黄色一级片免费的| 亚洲国产日韩一区二区| 国产视频首页在线观看| 国产一区有黄有色的免费视频| 男人爽女人下面视频在线观看| 99久久人妻综合| 在线观看免费日韩欧美大片| 又黄又粗又硬又大视频| 性高湖久久久久久久久免费观看| 男女国产视频网站| 国产真人三级小视频在线观看| 又大又黄又爽视频免费| 国产亚洲一区二区精品| 欧美精品人与动牲交sv欧美| 亚洲中文日韩欧美视频| 亚洲,欧美,日韩| 欧美精品av麻豆av| 亚洲av在线观看美女高潮| 在线观看免费日韩欧美大片| 亚洲精品日本国产第一区| 成人亚洲精品一区在线观看| 青青草视频在线视频观看| 久久精品aⅴ一区二区三区四区| 日韩大片免费观看网站| 午夜精品国产一区二区电影| 日韩av在线免费看完整版不卡| 亚洲国产最新在线播放| 日韩,欧美,国产一区二区三区| 欧美国产精品一级二级三级| 无遮挡黄片免费观看| 精品一区二区三区四区五区乱码 | 热99久久久久精品小说推荐| 一级毛片 在线播放| 中文字幕制服av| 免费人妻精品一区二区三区视频| 五月天丁香电影| 人体艺术视频欧美日本| 亚洲精品av麻豆狂野| 91精品三级在线观看| 中文字幕最新亚洲高清| 国产免费又黄又爽又色| 国产极品粉嫩免费观看在线| 国产亚洲一区二区精品| 一级片免费观看大全| 一本大道久久a久久精品| 久久精品人人爽人人爽视色| 黄色a级毛片大全视频| videos熟女内射| 又大又黄又爽视频免费| 999精品在线视频| 亚洲精品久久久久久婷婷小说| 欧美日韩精品网址| 你懂的网址亚洲精品在线观看| 91精品伊人久久大香线蕉| 亚洲av美国av| 国产亚洲欧美精品永久| 一个人免费看片子| 国产精品秋霞免费鲁丝片| 晚上一个人看的免费电影| 最新的欧美精品一区二区| 久久久久网色| 免费观看av网站的网址| 精品国产国语对白av| 黄色一级大片看看| 久久影院123| 国产一卡二卡三卡精品| 欧美中文综合在线视频| 国产xxxxx性猛交| 中文字幕色久视频| 国产野战对白在线观看| av福利片在线| 每晚都被弄得嗷嗷叫到高潮| 久久精品亚洲av国产电影网| 侵犯人妻中文字幕一二三四区| 国产精品久久久久久人妻精品电影 | 一边摸一边抽搐一进一出视频| 夫妻性生交免费视频一级片| 国产免费视频播放在线视频| 久久鲁丝午夜福利片| 亚洲情色 制服丝袜| 另类亚洲欧美激情| 国产成人啪精品午夜网站| av欧美777| 国产亚洲午夜精品一区二区久久| 国产精品香港三级国产av潘金莲 | 亚洲av在线观看美女高潮| 黄色片一级片一级黄色片| 午夜视频精品福利| 99香蕉大伊视频| 妹子高潮喷水视频| 久久久亚洲精品成人影院| 欧美 亚洲 国产 日韩一| 99国产综合亚洲精品| 精品高清国产在线一区| 国产精品九九99| 久久 成人 亚洲| av有码第一页| 久久国产亚洲av麻豆专区| 国产欧美日韩精品亚洲av| 黄片播放在线免费| 免费在线观看完整版高清| 丰满迷人的少妇在线观看| 蜜桃在线观看..| 亚洲精品国产色婷婷电影| 久久天堂一区二区三区四区| 欧美少妇被猛烈插入视频| 日韩欧美一区视频在线观看| 熟女少妇亚洲综合色aaa.| 精品视频人人做人人爽| 爱豆传媒免费全集在线观看| 亚洲伊人色综图| 久久这里只有精品19| 亚洲av成人不卡在线观看播放网 | 久久久精品国产亚洲av高清涩受| 伊人久久大香线蕉亚洲五| 亚洲欧美成人综合另类久久久| 亚洲 国产 在线| 精品国产一区二区久久| 亚洲伊人色综图| 一本—道久久a久久精品蜜桃钙片| 少妇精品久久久久久久| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲第一av免费看| 熟女少妇亚洲综合色aaa.| 欧美黑人精品巨大| 搡老乐熟女国产| 人人妻人人爽人人添夜夜欢视频| 50天的宝宝边吃奶边哭怎么回事| 国产精品二区激情视频| 日本av手机在线免费观看| 久久久久精品人妻al黑| 国精品久久久久久国模美| 国产精品九九99| 亚洲中文日韩欧美视频| 最近中文字幕2019免费版| 最近手机中文字幕大全| 精品国产一区二区三区久久久樱花| 大片免费播放器 马上看| videosex国产| netflix在线观看网站| 一级毛片黄色毛片免费观看视频| 午夜福利影视在线免费观看| 亚洲七黄色美女视频| 老司机在亚洲福利影院| 免费看十八禁软件| 久久久久久免费高清国产稀缺| 日本色播在线视频| 丝瓜视频免费看黄片| 国产成人免费观看mmmm| 免费少妇av软件| 欧美少妇被猛烈插入视频| 赤兔流量卡办理| 91老司机精品| 日本黄色日本黄色录像| 亚洲,一卡二卡三卡| 亚洲成色77777| 最近手机中文字幕大全| 国产福利在线免费观看视频| 亚洲五月色婷婷综合| 国产一区二区三区av在线| 好男人电影高清在线观看| 99久久精品国产亚洲精品| 少妇精品久久久久久久| 少妇的丰满在线观看| 免费少妇av软件| 久久久精品94久久精品| 久久亚洲国产成人精品v| 日日夜夜操网爽| 99精国产麻豆久久婷婷| 亚洲欧美清纯卡通| 欧美精品人与动牲交sv欧美| 久久精品久久久久久久性| 在线观看免费午夜福利视频| 亚洲少妇的诱惑av| 各种免费的搞黄视频| 人妻 亚洲 视频| 亚洲欧美日韩高清在线视频 | 最近手机中文字幕大全| 男女下面插进去视频免费观看| 亚洲欧美精品综合一区二区三区| 亚洲精品久久久久久婷婷小说| 国产成人欧美| 国产麻豆69| 美女午夜性视频免费| 国产精品欧美亚洲77777| 亚洲男人天堂网一区| 色播在线永久视频| 国产成人精品久久二区二区91| 99热全是精品|