• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Intel Cascade Lake架構(gòu)CPU SPEC CPU2017評測*

    2021-02-03 07:24:46劉新娃
    計算機(jī)工程與科學(xué) 2021年1期
    關(guān)鍵詞:副本內(nèi)存基準(zhǔn)

    杜 琦,黃 卉,龔 盛,劉新娃,黃 春

    (1.國防科技大學(xué)計算機(jī)學(xué)院,湖南 長沙 410073;2.中南林業(yè)科技大學(xué)環(huán)境科學(xué)與工程學(xué)院,湖南 長沙 410004)

    1 引言

    在高性能計算(HPC)領(lǐng)域,處理器的性能時刻影響著作業(yè)計算的效率,過去的幾年中,高性能計算領(lǐng)域受到來自不同廠商的關(guān)注,導(dǎo)致芯片架構(gòu)數(shù)量急劇上升,例如Marvell、華為和ARM等更多供應(yīng)商進(jìn)入了HPC相關(guān)領(lǐng)域,這種趨勢在未來預(yù)計仍會繼續(xù)。這些芯片具有不同的性能、功耗和特征,對新處理器架構(gòu)進(jìn)行基準(zhǔn)測試是了解其特性、獲取處理器真實性能最有效的途徑,對后續(xù)開展有針對性的代碼優(yōu)化至關(guān)重要[1]。

    Cascade Lake是由Intel在2019年4月推出的微處理器體系架構(gòu),采用14 nm制程,該架構(gòu)是在Skylake架構(gòu)的基礎(chǔ)上優(yōu)化而來的[2],為了分析此新架構(gòu),近來,我們使用SPEC CPU2017基準(zhǔn)測試工具對基于Cascade Lake架構(gòu)的Intel Xeon Gold 6252N處理器進(jìn)行了系統(tǒng)評測。Intel至強(qiáng)系列處理器共分為4種,分別是用于專家級工作站的Intel至強(qiáng)可擴(kuò)展處理器、用于空間和功耗受限環(huán)境的片上系統(tǒng)的D系列處理器、用于主流工作站的W系列處理器和用于入門級工作站的E系列處理器[3]。本文選擇評測的處理器6252N為Intel至強(qiáng)金牌可擴(kuò)展處理器,它可以支持更高的內(nèi)存速度、更多的內(nèi)存容量和4路可擴(kuò)展性,擁有較高的可靠性和安全性,并且這款處理器針對要求苛刻的主流數(shù)據(jù)中心、多云計算以及網(wǎng)絡(luò)和存儲工作負(fù)載進(jìn)行了優(yōu)化,適用于高性能計算機(jī)。當(dāng)前隨著ARM和AMD 處理器的不斷完善,高性能計算處理器市場有了更多選擇,Intel難以避免其他架構(gòu)處理器帶來的競爭。但是,就目前形勢而言,Intel處理器仍在高性能計算領(lǐng)域占有舉足輕重的地位,市場份額并不會迅速變化[4],并且,英特針對高性能計算還附帶提供了大量的軟件與技術(shù)支持,使其處理器能最大程度地提高計算性能。對6252N處理器的評測有利于了解Cascade Lake架構(gòu),也有利于獲取該款處理器的真實性能與特征。

    評測之前本文對市面上部分處理器基準(zhǔn)測試工具進(jìn)行了選型工作,在GNU Linux平臺,多選擇使用SPEC(Standard Performance Evaluation Corporation) CPU[5]與HPL(High-Performance Linpack) Linpack[6]評測處理器性能。

    SPEC CPU是一款開源跨平臺的處理器性能基準(zhǔn)測試套件,包括CPU89、CPU92、CPU95、CPU2000、CPU2006和CPU2017共6個版本,由SPEC發(fā)布。SPEC是由全球數(shù)十所大學(xué)、芯片廠商、科研團(tuán)體等組成的非營利性組織,致力于構(gòu)建一套標(biāo)準(zhǔn)化的基準(zhǔn)測試工具[7]。SPEC CPU基準(zhǔn)測試套件由多個應(yīng)用程序組成,這些程序分別來自不同的特定領(lǐng)域[8],其每一項基準(zhǔn)測試都可以獲取對應(yīng)的測試評分,測試結(jié)果在高性能計算機(jī)的處理器評測領(lǐng)域具有較高的認(rèn)可度。常用版本為CPU2006與CPU2017,但是隨著CPU2017的發(fā)布,CPU2006即將淘汰,官方推薦使用CPU2017[9],關(guān)于SPEC CPU2017的具體細(xì)節(jié),將在第2節(jié)介紹。

    Linpack是國際上使用最廣泛的高性能計算機(jī)系統(tǒng)浮點性能基準(zhǔn)測試,其實際測試結(jié)果受到包括處理器的架構(gòu)、數(shù)量與效率、內(nèi)存大小、算法相關(guān)的參數(shù)設(shè)置以及網(wǎng)絡(luò)連通性等多方面因素的影響[10],因此可以作為衡量機(jī)器整體性能的標(biāo)準(zhǔn)之一。測試包括3類,Linpack100、Linpack1000和HPL,前2種由于測試運(yùn)行規(guī)模較小,已不是很適合現(xiàn)代計算機(jī)的發(fā)展,當(dāng)前主要使用HPL測試。HPL是針對現(xiàn)代并行計算機(jī)提出的測試方式,允許用戶在不修改任意測試程序的基礎(chǔ)上,通過調(diào)節(jié)問題規(guī)模大小(矩陣大小)、使用CPU數(shù)目、使用各種優(yōu)化等方法來執(zhí)行該測試程序,以獲取最佳的性能。HPL的測試結(jié)果是全球超級計算機(jī)TOP500排行榜中的排名依據(jù),在國際上廣受認(rèn)可[11]。

    而在微軟Windows平臺多使用CPU-Z[12]與CineBench[13]進(jìn)行基準(zhǔn)測試。CPU-Z是一款由CPUID公司開發(fā)的免費(fèi)處理器評測工具,可收集機(jī)器中處理器、緩存、主板和內(nèi)存等主要設(shè)備的信息,也可對處理器進(jìn)行單線程和多線程的基準(zhǔn)測試評分。CineBench是一款由Maxon公司開發(fā)的跨平臺免費(fèi)測試套件,用于評測計算機(jī)處理器與GPU的性能,常用版本為R15,可以通過渲染圖形測試,獲取處理器的性能評分。

    本文測試基于RedHat Enterprise Linux Server 7.6平臺,鑒于平臺支持性,未選擇使用CPU-Z與CineBench。由于HPL Linpack中使用的Intel MKL(Math Kernel Library)數(shù)學(xué)庫針對CPU特性做過專門指令級手工優(yōu)化,體現(xiàn)的是機(jī)器的極值計算性能,不能代表典型應(yīng)用在機(jī)器上的表現(xiàn),而SEPC中的基準(zhǔn)測試程序來源于不同的大型應(yīng)用項目,能很好地體現(xiàn)典型應(yīng)用在機(jī)器上的表現(xiàn),且SPEC官網(wǎng)的測試結(jié)果頁面[14]提供了大量CPU2017評測結(jié)果以及配置文件可供參考對比,因而采用SPEC CPU2017作為本文評測的基準(zhǔn)測試工具。本文主要研究通過SPEC CPU2017對Intel Cascade Lake架構(gòu)CPU做評測,主要貢獻(xiàn)如下:

    (1)在Intel Cascade Lake架構(gòu)CPU平臺,進(jìn)行不同內(nèi)存頻率、副本數(shù)與打開/關(guān)閉Turbo的組合測試;

    (2)選擇Intel Ivy Bridge和Intel Haswell 2種架構(gòu)的CPU作為對比測試平臺,對比分析3種架構(gòu)的SPEC CPU2017表現(xiàn);

    (3)引入計算訪存跑分比PBR(Performance Bandwidth Ratio)的概念,分析3種架構(gòu)的硬件功能部件的增加對應(yīng)用程序的性能影響。

    2 相關(guān)背景及基準(zhǔn)程序的介紹

    本節(jié)簡要介紹SPEC CPU2017基準(zhǔn)程序,以及STREAM微基準(zhǔn)測試和性能評測相關(guān)的背景知識。

    2.1 SPEC CPU2017

    在SPEC CPU2017推出之前,SPEC CPU2006已使用10余年,而這10多年中,計算機(jī)領(lǐng)域已發(fā)生了重大變革,例如處理器架構(gòu)的更新、制作工藝的提升以及不斷增長的內(nèi)存容量。為了跟上技術(shù)進(jìn)步和新興領(lǐng)域發(fā)展的步伐,SPEC推出第6代基準(zhǔn)測試SEPC CPU2017[15]。

    經(jīng)過SPEC CPU的版本迭代更新,相比于CPU2006,CPU2017進(jìn)行了大量的更新和修改,包括添加來自新興領(lǐng)域的基準(zhǔn)測試項[16]。首先在測試套件方面,CPU2017由2006版本的2個測試套件Int和Rate升級為4個套件,這4個套件分別是用于測試整型運(yùn)算速度的Int Speed、用于測試浮點運(yùn)算速度的FP Speed、用于測試整型并發(fā)速率的Int Rate和用于測試浮點并發(fā)速率的FP Rate;在測試項方面,CPU2017測試項由CPU2006的29項升級為43項,測試程序集也相應(yīng)修改,其中Int類別保留CPU2006原有的perlbench、gcc、mcf、omnetpp和xalancbmk 5項,新增人工智能領(lǐng)域的exchange2測試項,有4項測試項修改了名稱,即bzip2、gobmk、sjeng和h254ref分別修改為xz、leela、deepsjeng和x264,刪除了原有的2項測試項hmmer和astar;FP類別保留了原有的bwaves、namd、provray、lbm和wrf 5項測試項,新增8項基準(zhǔn)測試項,分別是生物醫(yī)學(xué)領(lǐng)域的parest、三維渲染和動畫領(lǐng)域的blender、大氣建模領(lǐng)域的cam4、圖像處理領(lǐng)域的imagick、分子動力學(xué)領(lǐng)域的nab、計算電磁學(xué)領(lǐng)域的fotonik3d、區(qū)域海洋模擬領(lǐng)域的roms和海洋氣候模擬領(lǐng)域的pop2,修改cacusADM為cactuBSSN,同時刪除CPU2006原有的gamess、milc、zeusmp、gromacs、leslie3d、dealⅡ、soplex、calculix、GemsFDTD、tonto和sphinx3等10項測試項。與前幾代版本相同,CPU2017的基準(zhǔn)測試程序依然使用C/C++和FORTRAN語言編寫,因此可移植到多種CPU架構(gòu)以及包括UNIX和Windows在內(nèi)的多種操作系統(tǒng)中,同時,CPU2017在測試中將強(qiáng)制收集來自sysinfo程序的數(shù)據(jù),因此生成的報告也更加準(zhǔn)確完整。

    2.2 STREAM

    STREAM[17]是一套綜合性能測試程序集,通過FORTRAN和C 2種高級且高效的語言編寫完成,由弗吉尼亞大學(xué)(University of Virginia)提供,通過數(shù)組的復(fù)制、尺度變換、矢量求和及符合矢量求和等4種不同模式下的雙精度(8個字節(jié))內(nèi)存讀寫操作來測試高性能計算機(jī)的內(nèi)存帶寬。

    2.3 超線程

    超線程是Intel于2002年發(fā)布的一種技術(shù),它把多線程處理器內(nèi)部的2個邏輯內(nèi)核模擬成2個物理芯片,使單個處理器就能使用線程級的并行計算,進(jìn)而兼容多線程操作系統(tǒng)和軟件。超線程技術(shù)充分利用空閑CPU資源,在相同時間內(nèi)完成更多工作[18]。

    雖然采用超線程技術(shù)能夠同時執(zhí)行2個線程,但當(dāng)2個線程同時需要某個資源時,其中一個線程必須讓出資源暫時掛起,直到這些資源空閑以后才能繼續(xù)。因此,超線程的性能并不等于2個CPU的性能之和。而且,超線程技術(shù)的CPU需要芯片組、操作系統(tǒng)和應(yīng)用軟件的支持,才能比較理想地發(fā)揮該項技術(shù)的優(yōu)勢[18]。

    2.4 Turbo模式

    Intel睿頻加速技術(shù)(Intel Turbo Boost)是Intel對其CPU的時鐘頻率自動加速技術(shù)的商業(yè)名稱。當(dāng)程序?qū)PU資源利用增加時,睿頻加速技術(shù)自動開啟,提高CPU頻率,以滿足算力需求[19]。該技術(shù)啟動后,處理器將嘗試提高其自身的時鐘頻率,并由處理器的功率、電流、溫度限制、需要提高頻率的處理器核心數(shù)量,以及最大睿頻頻率來決定具體頻率的提高。此外,若睿頻加速期間處理器的溫度、功率等超過限制,則處理器的時鐘頻率會下降,以保護(hù)處理器[19]。

    2.5 qkmalloc和jemalloc內(nèi)存分配器

    qkmalloc是Intel自定義內(nèi)存分配器庫,最早出現(xiàn)在Intel C++編譯器19.0的更新版本1中。它提供了一個C級接口“qkmalloc()”用于替代經(jīng)典內(nèi)存分配器malloc分配內(nèi)存[20]。

    jemalloc是由Evans在2005年為FreeBSD開發(fā)的新一代內(nèi)存分配器,用來替代原來的phkmalloc[21]。到目前為止,除了原版jemalloc,還有很多變種被用在各種項目里。

    相對經(jīng)典內(nèi)存分配器,jemalloc最大的優(yōu)勢是其強(qiáng)大的多核/多線程分配能力。以現(xiàn)代計算機(jī)硬件架構(gòu)來說,最大的瓶頸已經(jīng)不再是內(nèi)存容量或CPU計算速度,而是多核/多線程下的鎖競爭(Lock Contention)。因為無論CPU核心數(shù)量如何多,通常情況下內(nèi)存只有一份,可以說,如果內(nèi)存足夠大,CPU的核心數(shù)量越多,程序線程數(shù)越多,jemalloc的分配速度越快,而這一點是經(jīng)典內(nèi)存分配器所無法達(dá)到的。

    3 測試平臺與環(huán)境

    從近幾年TOP500發(fā)布的超級計算機(jī)500強(qiáng)榜單可以看出,Intel處理器的比重越來越大。本文采用Intel 3款不同架構(gòu)的平臺進(jìn)行測試,即Intel Cascade Lake架構(gòu)處理器Intel Xeon Gold 6252N、Intel Haswell架構(gòu)處理器Intel Xeon E5-2620 v3和Intel Ivy Bridge架構(gòu)處理器Intel Xeon E5-2692 v2。這3款不同架構(gòu)處理器在TOP500中都占有一席之地。

    3.1 硬件平臺

    本文用到的3款不同架構(gòu)處理器的測試平臺的主要性能參數(shù)如表1所示。

    Table 1 Hardware configuration of the platforms表1 測試平臺硬件配置

    這3款不同架構(gòu)處理器除在基礎(chǔ)頻率、Cache容量等存在差別外,對計算性能有較大影響的向量部件、指令集等也有較大的差別,如表2所示。

    3.2 軟件環(huán)境

    在2個平臺上,本文均采用Intel Parallel Studio XE套件來編譯SPEC CPU2017的測試題,該

    Table 2 Test platform vector parts,FMA parts and deep learning instructions表2 測試平臺的向量部件、FMA部件和深度學(xué)習(xí)指令

    套件包含本次測試必需的C/C++編譯器ICC與FORTRAN編譯器IFort,并且對于x86處理器,Intel編譯器通常可以優(yōu)化程序代碼,提高應(yīng)用程序性能,具有較高的兼容性和易用性。測試依賴的GCC編譯器采用9.3.0版本,GCC 9.3.0是由GNU開源組織于2020年3月21日發(fā)布的,較早期9代GCC版本相比,修復(fù)了眾多已知錯誤,具有較高的穩(wěn)定性。詳細(xì)軟件環(huán)境如表3所示。

    Table 3 Software configuration of the platforms表3 測試平臺軟件環(huán)境

    4 測試及結(jié)果分析

    本文采用實測方法測試Intel Xeon Gold 6252N型號CPU。通過SPEC CPU2017測試集,分不同內(nèi)存頻率、打開/關(guān)閉Turbo Boost和打開/關(guān)閉超線程等配置組合對該型號CPU進(jìn)行全面測試,并分析不同配置組合下表現(xiàn)出的性能差異。本節(jié)還對比測試了Intel Ivy Bridge和Intel Haswell 2種架構(gòu)的CPU,根據(jù)SPEC CPU2017的測試結(jié)果討論了3種架構(gòu)的差異及其表現(xiàn)。本節(jié)使用的測試集為intrate(SPECrate 2017 Integer)和fprate(SPECrate 2017 Floating Point)。

    4.1 測試方法

    在本文的測試中,3個平臺使用的編譯器都為Intel編譯器,具體軟件環(huán)境配置如表3所示。

    在Intel Xeon Gold 6252N平臺,SPEC CPU2017的配置文件中使用的編譯選項主要包括“-O3”“-xCORE-AVX512”“-qopt-prefetch”“-iop”“-ljemalloc”和“-lqkmalloc”等,其中“-ljemalloc”和“-lqkmalloc”分別對應(yīng)jemalloc和qkmalloc內(nèi)存分配器。

    在Intel Xeon E5-2620 v3平臺,SPEC CPU2017的配置文件中使用的編譯選項主要包括“-O3”“-qopt-prefetch”“-iop”“-xCORE-AVX2”等。

    在Intel Xeon E5-2692 v2平臺,SPEC CPU2017的配置文件中使用的編譯選項主要包括“-O3”“-qopt-prefetch”“-iop”等。

    3個平臺的測試都是采用numactl來綁定CPU核,并使用interleave的方式分配內(nèi)存。

    4.2 Intel Xeon Gold 6252N

    本節(jié)分別測試討論intrate和fprate的單副本、48副本和96副本在內(nèi)存頻率為2 400 MHz和2 666 MHz、Turbo Boost打開或關(guān)閉情況下的性能表現(xiàn)。

    4.2.1 單副本

    圖1和圖2分別為單副本intrate和fprate的性能表現(xiàn)結(jié)果。從圖中可以看出,在Turbo Boost打開或關(guān)閉的情況下,內(nèi)存頻率的差異對單副本的測試性能沒有明顯的影響。

    Figure 1 Performance results of single intrate copy圖1 單副本intrate的性能表現(xiàn)結(jié)果

    Figure 2 Performance results of single fprate copy圖2 單副本fprate的性能表現(xiàn)結(jié)果

    4.2.2 48副本

    圖3和圖4分別為48副本intrate和fprate的性能表現(xiàn)結(jié)果。從圖中可以看出,在Turbo Boost打開或關(guān)閉的情況下,內(nèi)存頻率的差異對48副本intrate的測試性能沒有明顯的影響,但對48副本fprate的測試性能影響明顯。相較于2 400 MHz內(nèi)存頻率,使用2 666 MHz頻率的內(nèi)存,在48副本fprate的測試中有9個題目的性能有所提高,其中503.bwaves_r、519.lbm_r、521.wrf_r、549.fotonik3d_r 和554.roms_r 等5個題目的性能提升在9%左右;3個題目的性能下降,其中508.namd_r和538.imagick_r 等2個題目分別下降2%和4%;1個題目544.nab_r對內(nèi)存頻率差異不敏感。

    Figure 3 Performance results of 48 intrate copies圖3 48副本intrate的性能表現(xiàn)結(jié)果

    Figure 4 Performance results of 48 fprate copies圖4 48副本fprate的性能表現(xiàn)結(jié)果

    4.2.3 96副本

    圖5和圖6分別為96副本intrate和fprate的性能表現(xiàn)結(jié)果。從圖中可以看出,在Turbo Boost關(guān)閉的情況下,內(nèi)存頻率的差異對96副本intrate的測試性能有一定的影響,而在Turbo Boost打開時則不明顯;在Turbo Boost打開或關(guān)閉的情況下,內(nèi)存頻率的差異對96副本fprate的測試性能影響明顯,與48副本的對比分析基本一致。

    Figure 5 Performance results of 96 intrate copies圖5 96副本intrate的性能表現(xiàn)結(jié)果

    Figure 6 Performance results of 96 fprate copies圖6 96副本fprate的性能表現(xiàn)結(jié)果

    4.3 對比測試分析

    本節(jié)討論測試了Intel Xeon E5-2692 v2和Intel Xeon E5-2620 v3 2種架構(gòu)CPU的SPEC CPU2017的單副本和多副本,通過不同副本的跑分值來對比分析3種架構(gòu)的差別。

    Figure 7 Comparison of intrate run scores of three CPU architectures圖7 3種架構(gòu)CPU的intrate跑分值對比

    Figure 8 Comparison of fprate run scores of three CPU architectures圖8 3種架構(gòu)CPU的fprate跑分值對比

    圖7和圖8分別為3種CPU架構(gòu)的intrate和fprate的跑分值對比結(jié)果。從圖中可以看出,Intel Xeon Gold 6252N平臺的跑分值明顯優(yōu)于其他2個平臺的,說明在硬件資源增加的情況下,SPEC CPU2017的跑分值會相應(yīng)有所提高,但提高的比率是否與硬件資源增加的比率呈相應(yīng)倍數(shù)關(guān)系則無法從圖7和圖8中看出來。為了定量分析,本文引入計算訪存跑分比PBR的概念,即:

    其中,BenchmarkRatio表示SPEC CPU2017中測試題的跑分值,CPUComputingPerformance表示對應(yīng)副本數(shù)的CPU理論峰值,MemoryBandwidth表示內(nèi)存帶寬。PBR值越低,說明在單位時間內(nèi)硬件資源的利用率越高。

    4.3.1 理論峰值性能與理論訪存帶寬計算

    根據(jù)表1和表2給定的參數(shù)可以得到3個平臺的理論峰值性能(按基礎(chǔ)頻率計算)和理論訪存帶寬。本文使用的Intel Xeon Gold 6252N平臺擁有2個socket,每個socket有24個計算核心,每個核心的基礎(chǔ)頻率是2.3 GHz,向量寬度是512 bit,有2個FMA部件,故單核心的雙精度浮點理論峰值性能為:

    全平臺48核心的雙精度浮點理論峰值性能為3 532.8 GFlops。單核心的32位定點理論峰值性能為:

    全平臺48核心的32位定點理論峰值性能為7065.6×109ops。該平臺使用DDR4類型的內(nèi)存,內(nèi)存頻率為2 400 MHz,有12個訪存通道,故而最大訪存帶寬為:

    本文使用的Intel Xeon E5-2620 v3平臺擁有2個socket,每個socket有6個計算核心,每個核心的基礎(chǔ)頻率是2.4 GHz,向量寬度是256 bit,有2個FMA部件,故單核心的雙精度浮點理論峰值性能為:

    全平臺12核心的雙精度浮點理論峰值性能為460.8 GFlops。單核心的32位定點理論峰值性能為:

    全平臺12核心的32位定點理論峰值性能為921.6×109ops。該平臺使用DDR4類型的內(nèi)存,內(nèi)存頻率為2 133 MHz,有8個訪存通道,故而最大訪存帶寬為:

    本文使用的Intel Xeon E5-2692 v2平臺擁有2個socket,每個socket有12個計算核心,每個核心的基礎(chǔ)頻率是2.2 GHz,向量寬度是256 bit,有1個FMA部件,故單核心的雙精度浮點理論峰值性能為:

    全平臺24核心的雙精度浮點理論峰值性能為422.4 GFlops。單核心的32位定點理論峰值性能為:

    全平臺24核心的32位定點理論峰值性能為844.8×109ops。該平臺使用DDR4類型的內(nèi)存,內(nèi)存頻率為2 133 MHz,有8個訪存通道,故而最大訪存帶寬為:

    4.3.2 Intel Xeon E5-2692 v2和Intel Xeon E5-2620 v3

    本節(jié)給出了在打開Turbo、關(guān)閉超線程的情況下,2種架構(gòu)CPU的SPEC CPU2017的單副本和多副本的跑分值。圖9為單副本和多副本intrate的性能表現(xiàn)結(jié)果。圖10為單副本和多副本fprate的性能表現(xiàn)結(jié)果。

    Figure 9 Performance results of single intrate copy and multiple intrate copies圖9 單副本和多副本intrate的性能表現(xiàn)結(jié)果

    Figure 10 Performance results of single fprate copy and multiple fprate copies圖10 單副本和多副本fprate的性能表現(xiàn)結(jié)果

    4.3.3 對比分析

    本節(jié)在打開Turbo、關(guān)閉超線程的情況下,根據(jù)計算訪存跑分比PBR來分析3種CPU架構(gòu)的差別。

    圖11所示為3種架構(gòu)的fprate單副本PBR的表現(xiàn)結(jié)果。Intel Xeon E5-2692 v2和Intel Xeon E5-2620 v3 2款CPU在向量長度上都是256 bit,后者有2個FMA部件,而前者只有1個。從圖11中可以看出,Intel Xeon E5-2620 v3型號CPU測試平臺在多1個FMA部件、內(nèi)存頻率提高60%的情況下,單副本的PBR值并沒有相應(yīng)地按比例降低,且部分題目的PBR值還高于Intel Xeon E5-2692 v2的,這說明增加的FMA部件并沒有得到充分的利用。比較Intel Xeon Gold 6252N和Intel Xeon E5-2620 v3 2款CPU,前者的向量長度為512 bit,后者為256 bit,兩者都有2個FMA部件。從圖11中可以看出,在單副本時增加向量長度并沒有降低題目的PBR值,說明向量部件沒有得到充分的利用。特別地,增加FMA部件或者向量長度使得538.imagick_r題目的PBR值降低。

    Figure 11 Single fprate copy PBR results of three architectures圖11 3種架構(gòu)的fprate單副本PBR的表現(xiàn)結(jié)果

    圖12為3種架構(gòu)的fprate多副本PBR的表現(xiàn)結(jié)果。從圖12中可知,Intel Xeon E5-2692 v2的PBR值明顯高于Intel Xeon E5-2620 v3的,在硬件配置上后者較前者多了1個FMA部件,但L3 Cache大小只有前者的一半,CPU核數(shù)是前者的一半。從前文單副本的PBR分析知道,增加FMA部件對PBR值影響較小,且從圖8可知兩者的多副本得分接近,從而可知L3 Cache的大小對PBR值影響較大。Intel Xeon Gold 6252N與Intel Xeon E5-2692 v2的L3 Cache大小一致,L2 Cache大小是其4倍,前者PBR值明顯低于后者,從而可知L2 Cache的大小對PBR值影響較大。

    Figure 12 Multi fprate copies PBR results of three architectures圖12 3種架構(gòu)的fprate多副本PBR的表現(xiàn)結(jié)果

    圖13為3種架構(gòu)的intrate單副本PBR的表現(xiàn)結(jié)果。從圖13中可以看出,在單副本時,523.xalancbmk_r和525.x264_r 2個題目的表現(xiàn)在Intel Xeon Gold 6252N平臺較其他2個平臺好,剩余的8個題目的PBR值并沒有因為Intel Xeon Gold 6252N平臺硬件部件的增強(qiáng)而表現(xiàn)更好。從另一個角度說明,在單副本時,Intel Xeon Gold 6252N平臺的硬件資源是相對過剩的,特別地,對于AI領(lǐng)域的531.deepsjeng_r和541.leela_r 2個題目尤為明顯。

    Figure 13 Single intrate copy PBR results of three architectures圖13 3種架構(gòu)的intrate單副本PBR的表現(xiàn)結(jié)果

    圖14為3種架構(gòu)的intrate多副本PBR的表現(xiàn)結(jié)果。從圖14中可以得知,在多副本的情況下,Intel Xeon Gold 6252N平臺的PBR值明顯優(yōu)于其他2個平臺的,Intel Xeon E5-2620 v3平臺的PBR值優(yōu)于Intel Xeon E5-2692 v2平臺的,說明增加FMA部件或者向量長度可以有效地提高定點應(yīng)用的性能。特別地,在多副本時,AI領(lǐng)域的531.deepsjeng_r、541.leela_r和548.exchange2_r在Intel Xeon Gold 6252N平臺的PBR值優(yōu)于其他2個平臺的。

    Figure 14 Multi intrate copies PBR results of three architectures圖14 3種架構(gòu)的intrate多副本PBR的表現(xiàn)結(jié)果

    5 結(jié)束語

    本文采用SPEC CPU2017對Intel Cascade Lake架構(gòu)的Intel Xeon Gold 6252N型號CPU進(jìn)行了不同內(nèi)存頻率、不同副本數(shù)、打開/關(guān)閉Turbo的組合測試,總結(jié)了不同應(yīng)用程序在該型號上不同軟硬件配置的性能表現(xiàn)。同時,本文還對比測試了Intel Ivy Bridge架構(gòu)的Intel Xeon E5-2692 v2型號CPU和Intel Haswell架構(gòu)的Intel Xeon E5-2620 v3型號CPU,通過引入計算訪存跑分比PBR的概念,分析了3種架構(gòu)的硬件功能部件的增加對應(yīng)用程序的性能影響。通過對比測試分析發(fā)現(xiàn),對于浮點應(yīng)用題目,增加CPU的FMA部件不能顯著提高應(yīng)用程序的性能;向量長度從256 bit增加到512 bit,對高度向量化的應(yīng)用具有較好的效果,如圖像處理領(lǐng)域的imagick應(yīng)用程序;增加L2 Cache和L3 Cache的大小,在多副本的情況下,表現(xiàn)出較好的效果。對于定點應(yīng)用題目,增加FMA部件或者向量長度可以有效地提高其性能,特別在多副本的情況下效果明顯。

    猜你喜歡
    副本內(nèi)存基準(zhǔn)
    “春夏秋冬”的內(nèi)存
    面向流媒體基于蟻群的副本選擇算法①
    副本放置中的更新策略及算法*
    明基準(zhǔn)講方法保看齊
    滑落還是攀爬
    樹形網(wǎng)絡(luò)中的副本更新策略及算法*
    巧用基準(zhǔn)變換實現(xiàn)裝配檢測
    河南科技(2014年15期)2014-02-27 14:12:35
    Imagination率先展示全新Futuremark 3DMark OpenGL ES3.0基準(zhǔn)測試
    基于內(nèi)存的地理信息訪問技術(shù)
    上網(wǎng)本為什么只有1GB?
    上杭县| 华池县| 四会市| 买车| 台湾省| 安龙县| 辽阳市| 兰州市| 三原县| 漳平市| 堆龙德庆县| 隆回县| 璧山县| 方山县| 信阳市| 成都市| 新乐市| 合水县| 合江县| 红河县| 乌什县| 烟台市| 祁阳县| 安庆市| 怀集县| 同德县| 元谋县| 疏附县| 含山县| 厦门市| 遂溪县| 土默特左旗| 南靖县| 黑山县| 二连浩特市| 通榆县| 武清区| 宁强县| 广汉市| 南溪县| 安远县|