王一超,胡 航,William Tang,王 蓓,林新華
(1.上海交通大學(xué)高性能計(jì)算中心,上海 200240; 2.普林斯頓大學(xué)等離子體物理實(shí)驗(yàn)室,新澤西州普林斯頓 08540)
超級(jí)計(jì)算機(jī)被廣泛應(yīng)用于天氣預(yù)報(bào)、基因分析、天體模擬、核物理等高科技領(lǐng)域,對(duì)這些研究有著不可或缺的關(guān)鍵性作用。鑒于當(dāng)前的國際形勢(shì),我國大力推動(dòng)國產(chǎn)超級(jí)計(jì)算機(jī)的研制,“十三五”計(jì)劃中的3臺(tái)E級(jí)超級(jí)計(jì)算機(jī)原型系統(tǒng)——曙光、神威、天河原型機(jī)現(xiàn)已全部交付。其中曙光E級(jí)原型機(jī)是由中科曙光研制,采用CPU+加速器的異構(gòu)架構(gòu)。CPU采用的是AMD授權(quán)的海光x86處理器,加速器采用的是海光深度計(jì)算器DCU(Deep Computing Unit)加速卡[1]。
本文的工作主要分2部分:(1)采用基準(zhǔn)測試集(Benchmark Suite)對(duì)曙光E級(jí)原型機(jī)(以下簡稱原型機(jī))進(jìn)行了性能評(píng)測,測試了其浮點(diǎn)計(jì)算能力、訪存帶寬、訪存延遲等關(guān)鍵性能指標(biāo),并將其CPU部分與主流的Intel Xeon Gold 6148進(jìn)行對(duì)比;(2)將由普林斯頓大學(xué)開發(fā)的著名高性能計(jì)算應(yīng)用GTC-P(Gyrokinetic Toroidal Code at Princeton )[2]移植到原型機(jī)上,進(jìn)行了同構(gòu)和異構(gòu)的并行測試,并與Intel Xeon Gold 6148和NVIDIA V100進(jìn)行對(duì)比。
本文有以下3個(gè)主要貢獻(xiàn):
(1)對(duì)原型機(jī)上的Hygon 7185處理器進(jìn)行了基準(zhǔn)測試,結(jié)合已公開的資料,完善并明確了該處理器的基礎(chǔ)性能指標(biāo)。通過與Intel主流平臺(tái)的對(duì)比,為在原型機(jī)CPU上進(jìn)行應(yīng)用移植提供了性能分析依據(jù)。
(2)基于GTC-P應(yīng)用在原型機(jī)CPU上移植后的性能表現(xiàn),并對(duì)比Intel主流平臺(tái),分析了該高性能計(jì)算應(yīng)用在Hygon平臺(tái)上的性能瓶頸,從而評(píng)估了原型機(jī)CPU的實(shí)際性能。
(3)通過使用ROCm HIP模型將CUDA版本的GTC-P移植到原型機(jī)的加速器DCU上,并與最新GPU平臺(tái)NVIDIA V100進(jìn)行了性能對(duì)比,評(píng)估DCU的應(yīng)用可移植性和實(shí)際性能。
Figure 1 Diagram of Sugon exascale prototype’s node architecture圖1 曙光E級(jí)原型機(jī)結(jié)點(diǎn)架構(gòu)示意圖
本文將從GTC-P應(yīng)用、曙光E級(jí)原型機(jī)架構(gòu)、CPU和加速卡的硬件軟件信息幾個(gè)方面進(jìn)行研究背景介紹。
GTC-P是由普林斯頓大學(xué)等離子體物理實(shí)驗(yàn)室開發(fā)的質(zhì)點(diǎn)網(wǎng)格法PIC(Particle-In-Cell)程序。該程序具有極佳的可擴(kuò)展性,在許多超級(jí)計(jì)算機(jī)上進(jìn)行了性能測試,并已入選美國NERSC國家超級(jí)計(jì)算中心的基準(zhǔn)測試集,具有代表意義[3]。
其原理為通過求解5D的Vlasov-Poisson方程來模擬粒子和等離子在托克馬克裝置中的運(yùn)動(dòng)狀態(tài)。在每個(gè)時(shí)間步中主要執(zhí)行6個(gè)kernel 函數(shù):(1)Charge:通過4點(diǎn)陀螺平均法求解粒子到網(wǎng)絡(luò)的電荷沉積;(2)Poisson:求解陀螺動(dòng)力學(xué)泊松方程;(3)Field:計(jì)算網(wǎng)格電場;(4)Smooth:平滑網(wǎng)格電勢(shì)和電荷;(5)Push:計(jì)算電場對(duì)粒子的作用力,更新粒子的相空間位置;(6)Shift:將被移動(dòng)的粒子復(fù)制到緩沖區(qū),并移動(dòng)到相應(yīng)進(jìn)程[4],PIC算法中粒子與網(wǎng)格數(shù)的比例大約在100~100 000之間[5]。
2.2.1 總體架構(gòu)
曙光E級(jí)原型機(jī)共有512個(gè)結(jié)點(diǎn),1 024顆Hygon處理器和512塊DCU加速卡。各結(jié)點(diǎn)之間使用200 Gbps的高速網(wǎng)絡(luò),采用6D-Torus的方式實(shí)現(xiàn)高維互連。
每個(gè)結(jié)點(diǎn)有2顆Hygon 7185處理器和1塊DCU加速卡,256 GB的DDR4內(nèi)存,240 GB的M.2 SSD 硬盤。具體架構(gòu)如圖1所示。
2.2.2 海光CPU
原型機(jī)CPU使用的是AMD授權(quán)的Hygon 7185(后用Hygon Dhyana表示)。該系列芯片是海光公司根據(jù)AMD授權(quán)的EPYC 7001系列“Naples”芯片開發(fā)的針對(duì)中國市場的新系列芯片,由海光和AMD的合資公司HMC生產(chǎn)。由于“Naples”芯片是于2017年發(fā)布的,本文選取了與其同一時(shí)段發(fā)布的目前主流的商用處理器x86架構(gòu)的Intel Xeon Gold 6148(后用Intel Skylake表示)進(jìn)行對(duì)比測試,其硬件及軟件信息如表1所示。
2.2.3 海光DCU
原型機(jī)的加速卡為海光公司結(jié)合AMD授權(quán)的GPU技術(shù)制造的DCU。為了解其與目前最新GPU的性能差異,本文用NVIDIA 公司的Tesla V100來與其對(duì)比,其軟硬件信息如表2所示。
Table 2 Comparison of accelerator test platforms表2 加速器測試平臺(tái)對(duì)比
曙光原型機(jī)的DCU加速卡上使用的編程模型為AMD公司開發(fā)的ROCm(Radeon Open Computing platform)HIP(Heterogeous-compute Interface for Portability)模型。這種模型是用于所有AMD GPU的可替代CUDA的模型,可以實(shí)現(xiàn)在源碼級(jí)別上對(duì)CUDA程序的支持,其技術(shù)棧較多地參考了CUDA技術(shù)棧[6]。
HIP支持C++語言特性,包括模板、C++11 lambdas、類、命名空間等。HIP讓開發(fā)者可以將CUDA程序轉(zhuǎn)換成可移植的C++程序,轉(zhuǎn)換后的程序在NVIDIA和AMD GPU上都可以編譯運(yùn)行,只需要在編譯時(shí)指定平臺(tái)參數(shù)即可。HIP相關(guān)的運(yùn)行組件都是已編譯好可以直接鏈接使用的動(dòng)態(tài)庫。
本節(jié)首先用基準(zhǔn)測試集對(duì)原型機(jī)及對(duì)比平臺(tái)進(jìn)行了微架構(gòu)測試:使用HPL[7]測試雙精度浮點(diǎn)計(jì)算能力,使用STREAM[8]和LMbench[9]測試訪存帶寬及延遲。這些性能數(shù)據(jù)可對(duì)GTC-P測試0進(jìn)行指導(dǎo)和分析。
在評(píng)估超級(jí)計(jì)算機(jī)的性能時(shí),通常會(huì)優(yōu)選雙精度浮點(diǎn)計(jì)算能力作為判斷,因此本文選擇HPL基準(zhǔn)測試來顯示其性能,測試結(jié)果如表3所示。
Table 3 Results of HPL 表3 HPL基準(zhǔn)測試結(jié)果 GFLOPS
由于Hygon Dhyana處理器支持AVX2指令集,我們初始認(rèn)為該處理器的向量化位寬為256 bit,但其實(shí)測雙精度浮點(diǎn)計(jì)算性能僅為理論值的39.6%。我們隨后進(jìn)行了AVX2指令的吞吐量測試以驗(yàn)證結(jié)果的正確性。
結(jié)果顯示在使用相同的AVX2指令時(shí),Hygon Dhyana的吞吐量僅為Intel Skylake的0.5倍,故我們推測其雙精度向量化位寬為128 bit,其Linpack效率為79.2%。
我們選擇的是MPI+OpenMP版的STREAM測試程序。(1)測試單路訪存帶寬時(shí),設(shè)置MPI進(jìn)程數(shù)為1,OpenMP線程數(shù)為單socket核心數(shù),使用GOMP_CPU_AFFINITY參數(shù)將OpenMP線程綁定到對(duì)應(yīng)的核心上;(2)測試雙路訪存帶寬時(shí),設(shè)置MPI進(jìn)程數(shù)為2,分別綁定到對(duì)應(yīng)的socket上,在同一socket內(nèi)使用OpenMP線程并行,同樣使用GOMP_CPU_AFFINITY參數(shù)綁定。得到的不同平臺(tái)的內(nèi)存訪問帶寬如圖2a所示。
由于我們?cè)诠_資料中未查找到Hygon Dhyana的內(nèi)存通道數(shù),根據(jù)我們實(shí)測的訪存帶寬,Hygon Dhyana的Triad帶寬是Intel Skylake的1.49倍,而Intel Skylake的內(nèi)存通道為6通道,故我們推測Hygon Dhyana的內(nèi)存通道為8通道。
Figure 2 Memory bandwidth and access latency of Hygon Dhyana and Intel Skylake圖2 Hygon Dhyana、Intel Skylake訪存帶寬與延遲
對(duì)于CPU訪存性能來說,除了訪存帶寬之外,訪存延遲也是一項(xiàng)重要指標(biāo)。我們使用LM-bench基準(zhǔn)測試對(duì)比了不同平臺(tái)各層次的訪存延遲,結(jié)果如圖2b所示。
Table 1 Comparison of CPU test platforms (open data)表1 CPU測試平臺(tái)對(duì)比(公開數(shù)據(jù))
從圖2中可以看到,Hygon Dhyana的訪存延遲在48 KB、512 KB、8 MB時(shí)突然增大,隨后穩(wěn)定。我們基于Linux系統(tǒng)工具,結(jié)合訪存延遲實(shí)驗(yàn)觀察到的現(xiàn)象得到了Hygon Dhyana的各級(jí)緩存大小,具體的各級(jí)內(nèi)存子系統(tǒng)大小及訪問延遲結(jié)果如表4所示。
綜上所述,由于Hygon Dhyana比Skylake具有更高的帶寬和更低的延遲,Hygon Dhyana對(duì)于訪存密集型應(yīng)用在理論性能上更具優(yōu)勢(shì)。接下來,我們將利用實(shí)際應(yīng)用性能測評(píng)對(duì)其進(jìn)行實(shí)驗(yàn)驗(yàn)證。
Hygon Dhyana處理器兼容x86_64指令集和AVX2指令集,其軟件生態(tài)良好,支持開源編譯器GCC、Intel編譯器ICC和AMD基于Clang開發(fā)的HCC編譯器。對(duì)于MPI庫,曙光支持Intel IMPI、Mvapich2、OpenMPI,方便了GTC-P的移植。
在GTC-P的同構(gòu)并行移植過程中,我們發(fā)現(xiàn)使用Intel ICC編譯器和對(duì)應(yīng)的IMPI得到的性能最好,因此在進(jìn)行CPU性能對(duì)比測試時(shí),Hygon平臺(tái)和Intel平臺(tái)都選用的是Intel ICC編譯器和Intel MPI并行庫。
GTC-P程序有A、B、C、D 4個(gè)不同算例,本次實(shí)驗(yàn)中主要用到的是算例C和算例D,其具體描述如表5所示。
Table 5 Parameters of different examples of GTC-P表5 GTC-P不同算例的參數(shù)設(shè)置
我們首先在不同平臺(tái)上運(yùn)行了單MPI進(jìn)程單OpenMP線程的GTC-P程序,采用的算例是算例C。記錄其運(yùn)行時(shí)間,以確定在不同平臺(tái)上熱點(diǎn)kernel函數(shù)及性能表現(xiàn),結(jié)果如圖3a所示。
測試結(jié)果顯示,單進(jìn)程的GTC-P在Hygon Dhyana平臺(tái)上的運(yùn)行時(shí)間是Skylake的1.6倍,其中主要耗時(shí)是在Charge函數(shù)和Push函數(shù),這2個(gè)函數(shù)的運(yùn)行時(shí)間占整個(gè)應(yīng)用總運(yùn)行時(shí)間的85%以上。
由于Hygon Dhyana處理器的向量化位寬只有128 bit,是Intel Skylake的1/4,同一時(shí)間能進(jìn)行的浮點(diǎn)計(jì)算只有Intel Skylake的1/4,故計(jì)算部分耗時(shí)會(huì)顯著增多。另一方面,Hygon Dhyana的L3 Cache只有Intel Skylake的29%,故GTC-P中的不規(guī)則訪存密集部分在Hygon Dhyana上會(huì)有更多的主存訪存操作導(dǎo)致用時(shí)增多。
我們發(fā)現(xiàn)Charge和Push函數(shù)的計(jì)算強(qiáng)度均小于2,結(jié)合Hygon Dhyana的峰值浮點(diǎn)性能和訪存帶寬可知,這2個(gè)函數(shù)的性能主要受限于訪存性能,因此后續(xù)的原型機(jī)上GTC-P的優(yōu)化可以從改善訪存方面實(shí)現(xiàn)。
Figure 3 Runtime comparison of GTC-P on two platforms圖3 GTC-P在2種平臺(tái)上的運(yùn)行時(shí)間對(duì)比
針對(duì)GTC-P程序在不同平臺(tái)上的并行性能做了進(jìn)一步測試,測試了用MPI和OpenMP混合的GTC-P在曙光單結(jié)點(diǎn)和Intel Skylake上的運(yùn)行情況,用numactl參數(shù)將MPI進(jìn)程綁定到NUMA結(jié)點(diǎn)上,并按照單MPI進(jìn)程的運(yùn)行時(shí)間進(jìn)行了歸一化,結(jié)果如圖4a所示??梢钥吹?在曙光平臺(tái)上,當(dāng)使用8個(gè)MPI進(jìn)程,每個(gè)MPI進(jìn)程創(chuàng)建8個(gè)OpenMP線程時(shí)運(yùn)行時(shí)間最短,這是因?yàn)镠ygon處理器有2個(gè)socket,每個(gè)socket有4個(gè)NUMA結(jié)點(diǎn),在這種模式下,每個(gè)MPI進(jìn)程正好綁定到1個(gè)NUMA結(jié)點(diǎn)上,各OpenMP線程之間的通信都是在同一個(gè)NUMA中,基本不會(huì)有訪存性能的下降,所以總體性能最優(yōu)。
Table 4 Test results of memory subsystem size and access latency 表4 內(nèi)存子系統(tǒng)大小及訪問延遲測試結(jié)果
隨后我們進(jìn)行了在不同平臺(tái)上使用雙路并行運(yùn)行GTC-P的測試。Hygon Dhyana上使用8個(gè)MPI進(jìn)程8個(gè)OpenMP線程,Intel Skylake上使用2個(gè)MPI進(jìn)程20個(gè)OpenMP線程,將MPI進(jìn)程綁定到NUMA結(jié)點(diǎn)上,在同一NUMA結(jié)點(diǎn)內(nèi)使用OpenMP線程進(jìn)行并行。測試結(jié)果如圖3b所示,在使用2個(gè)socket加速時(shí),Hygon Dhyana處理器上GTC-P的用時(shí)是Intel Skylake的85%,性能是Intel Skylake的1.18倍。
在使用雙路并行時(shí),由于Hygon Dhyana處理器雙路訪存帶寬是Intel Skylake的1.49倍,故Charge和Push 2個(gè)有較多不規(guī)則訪存操作的函數(shù)用時(shí)均少于Intel Skylake的,總體性能Hygon Dhyana略微優(yōu)于Intel Skylake。
Figure 4 Acceleration performance and strong scalability of GTC-P on Sugon platform圖4 GTC-P在曙光平臺(tái)多核加速性能及多結(jié)點(diǎn)強(qiáng)可擴(kuò)展性
為了更好地顯示原型機(jī)的性能,還進(jìn)行了多結(jié)點(diǎn)的MPI并行測試。在單個(gè)結(jié)點(diǎn)內(nèi)使用前文中的MPI+OpenMP配置進(jìn)行并行,在多結(jié)點(diǎn)之間使用MPI進(jìn)行并行。在本次測試中,由于算例C在較多結(jié)點(diǎn)并行運(yùn)行時(shí)的時(shí)間較短,選用了更大的算例D。由于原型機(jī)上單個(gè)賬號(hào)最多能使用30個(gè)結(jié)點(diǎn),本文的擴(kuò)展性測試只做到了30個(gè)結(jié)點(diǎn),測試結(jié)果如圖4b所示。
從圖4b中可以發(fā)現(xiàn),在并行運(yùn)行的結(jié)點(diǎn)數(shù)不超過10時(shí),GTC-P的加速比基本與理論加速比吻合,大致呈線性增加趨勢(shì),說明GTC-P在原型機(jī)上多結(jié)點(diǎn)運(yùn)行時(shí)有很好的強(qiáng)可擴(kuò)展性;在超過10個(gè)結(jié)點(diǎn)后,總的運(yùn)行時(shí)間緩慢減少,說明此時(shí)結(jié)點(diǎn)之間的通信時(shí)間隨著結(jié)點(diǎn)的增多而逐漸占據(jù)主導(dǎo),能通過并行運(yùn)行減少的計(jì)算時(shí)間較少,再增加并行的結(jié)點(diǎn)數(shù)對(duì)整體性能影響不大,最后加速比大約是理論加速比的62%。這說明原型機(jī)的200 Gbps 6D-Torus網(wǎng)絡(luò)對(duì)GTC-P這種有較多不規(guī)則訪存的應(yīng)用在較小規(guī)模的并行時(shí)有著較好的擴(kuò)展性,但規(guī)模較大時(shí)會(huì)由于結(jié)點(diǎn)間通信時(shí)間過長導(dǎo)致性能提升不明顯。
Hygon DCU加速卡采用的編程模型是AMD公司開發(fā)的HIP模型,與NVIDIA公司的CUDA編程模型相對(duì)應(yīng)[10]。其支持的并行庫中與CUDA相關(guān)的庫在Hygon DCU中支持的均為其轉(zhuǎn)換為HIP之后的庫。Hipify作為一款轉(zhuǎn)譯工具可以將CUDA API轉(zhuǎn)換成HIP API,并自動(dòng)添加頭文件等。由于該工具只進(jìn)行了字符串的替換,轉(zhuǎn)換后仍需要手動(dòng)修改少量代碼。
除了基本的移植之外,在原CUDA版本的GTC-P程序中應(yīng)用了紋理內(nèi)存來提高程序中的大量局部空間操作的性能,但HIP編程模型目前還不支持紋理內(nèi)存,在移植時(shí)關(guān)閉了程序的紋理內(nèi)存功能,使用普通的共享內(nèi)存進(jìn)行存儲(chǔ)。
本文使用算例C測試GPU版GTC-P在原型機(jī)上的性能,并將其DCU部分的運(yùn)行時(shí)間和PCIe通信時(shí)間與NVIDIA V100平臺(tái)的運(yùn)行時(shí)間作對(duì)比,分析其加速器的性能指標(biāo)。對(duì)于CPU部分,仍選擇前文中的最優(yōu)配置,并將MPI進(jìn)程綁定到對(duì)應(yīng)的NUMA結(jié)點(diǎn)上。GTC-P的各內(nèi)核函數(shù)在加速器上的運(yùn)行時(shí)間及通信時(shí)間如圖5所示。
Figure 5 Runtime and communication time of GTC-P on Hygon DCU and NVIDIA V100圖5 GTC-P在Hygon DCU、 NVIDIA V100上的運(yùn)行時(shí)間和通信時(shí)間
當(dāng)NVIDIA V100使用紋理內(nèi)存時(shí),GTC-P的整體性能在DCU上為在NVIDIA V100上的61%。其中,Charge函數(shù)的性能在DCU上為在NVIDIA V100上的38.3%,Push函數(shù)的性能在2個(gè)平臺(tái)上持平。根據(jù)前文中的硬件信息可知,DCU的雙精度浮點(diǎn)計(jì)算性能約為NVIDIA V100的73.1%,而Charge函數(shù)中為了避免數(shù)據(jù)沖突,使用了較多的重復(fù)計(jì)算操作,導(dǎo)致DCU的雙精度浮點(diǎn)計(jì)算的劣勢(shì)放大。Push函數(shù)中有大量的不規(guī)則訪存,對(duì)加速器的讀取帶寬要求較高,說明DCU的內(nèi)部訪存性能與NVIDIA V100大致相當(dāng)。
不使用紋理內(nèi)存時(shí),GTC-P在NVIDIA V100上的耗時(shí)明顯增加,達(dá)到了原來的1.29倍,僅為DCU上耗時(shí)的78.6%。其中Charge函數(shù)耗時(shí)是原來的1.28倍,Push函數(shù)耗時(shí)是原來的1.36倍,說明GTC-P程序中有大量的局部空間操作,使用紋理內(nèi)存可以提高性能。后續(xù)實(shí)現(xiàn)HIP模型對(duì)紋理內(nèi)存的支持可以進(jìn)一步提高GTC-P在DCU上的性能表現(xiàn)。
對(duì)于加速器的PCIe通信時(shí)間,Hygon DCU與NVIDIA V100大致相同,符合前文中測得的CPU與加速器之間的訪存帶寬。
在CPU的基準(zhǔn)性能測試方面。Saini等[11]在基于Intel Haswell和Intel Ivy Bridge處理器的超級(jí)計(jì)算機(jī)上進(jìn)行了性能測試,使用了STREAM、LMbench、HPCC、HPL、HPCG等一系列基準(zhǔn)測試集和4個(gè)科學(xué)和工業(yè)應(yīng)用程序?qū)Ρ葍烧叩男阅?。McCormick教授等[12]團(tuán)隊(duì)針對(duì)x86多核NUMA架構(gòu)的處理器提出了一系列測量訪存性能的方法,并在Intel和AMD處理器上建立了相關(guān)的訪存性能模型。本文在曙光E級(jí)原型機(jī)的CPU性能測試上借鑒了其方法。
在GTC-P應(yīng)用的移植和優(yōu)化方面。普林斯頓大學(xué)Wang等[13]在Mira、Sequoia、Hopper等超級(jí)計(jì)算機(jī)上進(jìn)行了GTC-P的移植和優(yōu)化,并評(píng)估了其可擴(kuò)展性。上海交通大學(xué)王一超等[4]利用OpenACC在神威“太湖之光”超級(jí)計(jì)算機(jī)上成功移植了GTC-P應(yīng)用并進(jìn)行了優(yōu)化。
本文首先面向曙光E級(jí)原型機(jī)進(jìn)行了性能測試,以指導(dǎo)GTC-P的移植,并與目前主流的CPU—Intel Xeon Gold 6148(Skylake)進(jìn)行了對(duì)比。本文測試了其浮點(diǎn)計(jì)算能力、內(nèi)存訪問帶寬和延遲,發(fā)現(xiàn)Hygon 7185處理器的單socket實(shí)測浮點(diǎn)計(jì)算能力為209.5 GFLOPS,僅為Skylake的22.5%。在訪存帶寬及延遲方面,Hygon處理器的單socket訪存帶寬為126 GB/s,是Skylake的1.45倍;Hygon的L1、L2緩存訪存延遲略高于Skylake的,但L3緩存和主存的訪存延遲低于Skylake的。
我們?cè)谑锕釫級(jí)原型機(jī)上分別移植了同構(gòu)并行和異構(gòu)并行的GTC-P。在CPU上,單核的GTC-P程序的性能是Intel Skylake的62.5%,主要原因是Hygon Dhyana的向量化位寬是Skylake的一半,以及Dhyana的L3高速緩存大小僅為Skylake的29%,導(dǎo)致GTC-P中許多不規(guī)則訪存操作耗時(shí)較多。在多結(jié)點(diǎn)擴(kuò)展性上,使用算例D運(yùn)行的GTC-P在超過10個(gè)結(jié)點(diǎn)后基本已經(jīng)充分加速,再增加結(jié)點(diǎn)數(shù)加速效果并不明顯,最后的加速比約為理論加速比的62%。在DCU上,通過HIP編程模型快速移植了GTC-P應(yīng)用,其整體性能達(dá)到了NVIDIA V100上整體性能的61%。