上一個十年,AMD曾經(jīng)憑借皓龍(Opteron)在服務器、數(shù)據(jù)中心領域獲得過超過四分之一的市場份額。在成功推出Zen架構(gòu)之后,AMD在2017年推出了皓龍的接班人—全新的EPYC系列處理器,重新成為服務器、數(shù)據(jù)中心領域強有力的競爭者。2018年底,AMD再接再厲,正式公布了業(yè)界首款采用7nm生產(chǎn)工藝、基于Zen 2架構(gòu)、代號“Rome”的第二代EPYC系列處理器。半年多之后,AMD終于在舊金山(當?shù)貢r間8月7日,北京時間8月8日)正式發(fā)布這款產(chǎn)品。那么第二代EPYC系列處理器都有哪些“獨門秘訣”,它的性能相比上一代EPYC處理器有多大的提升,在和競品的較量中是否能夠取得領先呢?
7nm為羽、Zen 2為翼 AMD第二代EPYC處理器技術詳解
相比代號為“Napies”的第一代AMD EPYC處理器,第二代AMD EPYC處理器在生產(chǎn)工藝、核心架構(gòu)、內(nèi)存頻率和帶寬等諸多方面進行了升級。例如,第二代AMD EPYC處理器采用了先進的7nm生產(chǎn)工藝,并且基于全面升級的Zen 2架構(gòu)等。那么這些升級到底能夠讓第二代AMD EPYC處理器在哪些方面得到增強呢?
7nm生產(chǎn)工藝領銜
在確定了以TSMC臺積電作為合作伙伴之后,AMD迅速將全線新款產(chǎn)品的生產(chǎn)工藝推進到7nm,已經(jīng)正式上市的第三代銳龍?zhí)幚砥骱蚏adeon RT 5700系列顯卡均采用7nm工藝生產(chǎn),此次發(fā)布的第二代EPYC系列處理器當然也不會例外。臺積電的7nm工藝全稱是7nm HK-MG FinFET,針對不同的用途分為兩種:一種為移動設備設計,被稱為“7FF”,以低功耗和較高性能功耗比為主要特點;另一種為高性能處理器設計,名為“7HPC”。那么7nm生產(chǎn)工藝有哪些好處呢?AMD官方數(shù)據(jù)顯示,采用7nm生產(chǎn)工藝的處理器在晶圓密度上提高了兩倍;在相同性能下,功耗可以降低一半;在相同功WF,性能較前代產(chǎn)品可以提升25%。
如今,AMD代號為“Rome”的第二代處理器已經(jīng)正式發(fā)布,而英特爾基于10nm生產(chǎn)工藝的服務器產(chǎn)品目前還沒有太多信息,按照以往的慣例,服務器類產(chǎn)品的推出節(jié)奏通常會比消費類產(chǎn)品的晚一年,而10nm的英特爾消費類產(chǎn)品目前才剛開始發(fā)布相關品牌的產(chǎn)品。所以,這是在多年之后,AMD首次表示其服務器處理器在生產(chǎn)工藝上取得領先,特別是在每瓦性能方面。當然,目前英特爾方面則認為其10nm制程的晶體管密度更好。兩者的技術特性目前尚無進一步的詳細對比資料,有興趣的讀者不妨關注我們后續(xù)的報道。
Zen 2架構(gòu):全面架構(gòu)提升+革命性的分離式設計
除了制造工藝上的優(yōu)勢之外,第二代AMD EPYC系列處理器最重要的革新其實是其核心基于Zen 2架構(gòu)。相較于Zen架構(gòu),Zen 2架構(gòu)在各方面都進行了增強。其中最核心的有兩個部分:一是核心微架構(gòu)升級,二是計算單元和I/O單元的分離。
升級核心微架構(gòu),IPC大幅提升
AMD在Zen架構(gòu)設計時就非常注重提升處理器的單核心IPC性能。Zen架構(gòu)核心相比前代產(chǎn)品單核心IPC性能提升了超過52%之多。據(jù)AMD在舊金山EPYC Horizon發(fā)布會上宣布,擁有最高64顆Zen 2核心的第二代AMD EPYC處理器,相比Zen核心架構(gòu),服務器工作負載的IPC性能提升最高達23%!
IPC性能大幅提升的主要原因在于,AMD在設計Zen 2架構(gòu)時對內(nèi)部架構(gòu)進行了大幅改良。比如大幅改進了分支預測功能,全新的TAGE分支預測器相比上一代的Perceptron,在各級指令緩存,微操作緩存以及L1 cache的關聯(lián)寬度等方面幾乎都是翻倍的。在整數(shù)運算單元上,Zen 2架構(gòu)的ALU數(shù)量沒有變,但是管理數(shù)據(jù)載入和存儲指令的AGU單元從兩個提升到了3個,并提升了各種緩存大小,增強了ALU、AGU的調(diào)度能力,使其更加合理。浮點運算單元的數(shù)據(jù)路徑寬度為256bit,比上一代翻倍了,不僅具有更大的吞吐量,同時也更好地實現(xiàn)了對AVX-256指令的支持。此外,浮點運算單元的數(shù)據(jù)載入和存儲帶寬也獲得了提升,將使得數(shù)據(jù)的傳輸更具效率,并減少了與整數(shù)單元出現(xiàn)沖突的概率。
模塊化設計帶來更高靈活度
除了核心架構(gòu)方面的進步,Zen 2在處理器的設計布局上也進行了變革,以便實現(xiàn)更高靈活度的模塊化設計。CHIPLET模塊化設計是基于AMD Infinity Fabric互聯(lián)的增強版本,其核心思路是在單個處理器封裝內(nèi)鏈接多片獨立的硅晶片。和Zen架構(gòu)中每個處理器核心分別自帶相關I/O模塊截然不同的是,Zen 2架構(gòu)徹底將處理器核心和I/O模塊進行分離,處理器核心本身不再提供I/O接口而專注于運算,I/O模塊則成為連接各個計算核心和外部鏈接的中樞。
Zen 2的計算核心采用先進的7nm制程工藝生產(chǎn),有助于縮小晶片面積、提高頻率、降低功耗。而I/O部分由于模擬電路更多,即使采用7nm工藝也不會帶來面積、功耗等方面的明顯改善,所以采用成熟的14nm工藝制造。這種創(chuàng)新的模塊化設計的優(yōu)勢明顯——在同等功耗下?lián)碛懈嗟腃PU核心,可以獲得更高的性能;而與傳統(tǒng)的單片設計相比,生產(chǎn)成本又更低。將這種全新的設計方法與臺積電最前沿的7nm生產(chǎn)工藝優(yōu)勢相結(jié)合,Zen 2架構(gòu)帶來了性能、能耗和計算密度的提升,有助于大幅降低數(shù)據(jù)中心的運營成本和散熱需求。
除了性能和成本上的優(yōu)勢,Zen 2架構(gòu)所采用的模塊化設計的優(yōu)勢還在于可以根據(jù)計算需要,靈活地將不同數(shù)量的計算核心與I/O模塊搭配,以實現(xiàn)不同的規(guī)格。Zen 2單個計算模塊的規(guī)格是8核心、16線程,單顆第二代AMD EPYC處理器的SoC封裝最多可以搭配8個計算模塊,這樣就能夠?qū)崿F(xiàn)最多64核心、128線程的規(guī)格。此前單路CPU最多的物理核心也只有32個,所以第二代AMD EPYC處理器在物理核心數(shù)量上實現(xiàn)翻倍,并支持SMT技術。
而在5款純單路產(chǎn)品中,EPYC 7702P的性能最強,它同樣擁有64核128線程,基礎頻率為2.0GHz,TDP為200W,售價為4425美元,價格也同樣非常實惠。當然,在這19款新品中也不乏定位中端、擁有32核64線程的EPYC 7502,以及擁有8核16線程的EPYC 7232P等入門級產(chǎn)品。
ROme降臨:大幅超越Naples,讓對手倍感壓力
總的來看,率先采用7nm生產(chǎn)工藝、基于Zen 2架構(gòu)的第二代AMD EPYC處理器的確是AMD推出的重磅產(chǎn)品。其先進的7nm生產(chǎn)工藝有助于縮小晶片面積、提高頻率、降低功耗;Zen 2架構(gòu)則大幅度提升了IPC;革命性的模塊化設計帶來了更高的靈活性。此外,第二代EPYC處理器最高達64核128線程的核心規(guī)格也讓它擁有遠超上一代產(chǎn)品的性能。不僅如此,第二代EPYC處理器的理論最大內(nèi)存帶寬相比上一代產(chǎn)品提升約21%,相比競品更有45%的優(yōu)勢。而在內(nèi)存頻率方面,第二代EPYC處理器的內(nèi)存頻率最高可支持DDR4 3200,而上一代EPYC處理器支持的最高內(nèi)存頻率則為DDR4 2666。
坦率地說,第二代AMD EPYC處理器是一款讓競爭對手倍感壓力的產(chǎn)品,這不,英特爾趕在第二代AMD EPYC處理器正式發(fā)布之前,宣布了代號“Cooper Lake”的下一代至強可擴展處理器頂級產(chǎn)品的消息,但無論如何,“Cooper Lake”還是最高只有56個物理核心,還是采用的14nm生產(chǎn)工藝。
那么第二代EPYC處理器的實際性能究竟有多強呢?MC特別對第二代EPYC處理器中的旗艦產(chǎn)品EPYC 7742進行了獨家測試,下面我們就來看看在7nm生產(chǎn)工藝和Zen 2架構(gòu)的加持下,作為第二代EPYC處理器旗艦產(chǎn)品的EPYC 7742到底擁有怎樣的性能表現(xiàn)。
大幅領先Naples和競品 第二代AMD EPYC處理器獨家評測
從AMD關于第二代EPYC處理器的介紹中我們可以看到,這款處理器采用行業(yè)領先的7nm生產(chǎn)工藝,全新升級的Zen 2架構(gòu),率先支持PCIe 4.0,并且其內(nèi)存帶寬大幅提升。那么得到全面升級的第二代EPYC處理器到底擁有怎樣的性能表現(xiàn),它的性能相比第一代EPYC處理器有多大的提升,在和競品的較量中是否能夠取得領先呢?懷揣這些疑問,我們對第二代EPYC處理器中的旗艦級產(chǎn)品EPYC 7742的性能進行了獨家測試。作為第二代EPYC處理器中的旗艦級產(chǎn)品,EPYC 7742擁有驚人的64核128線程,并且其基礎頻率達到2.25GHz,最高Boost頻率可達3.4GHz,TDP為225W。此外,這款處理器還支持組建雙路系統(tǒng),可在為用戶帶來強勁性能的同時,還能幫助用戶降低成本。
AMD:雙路EPYC 7442大幅領先競品
作為被邀請的全球少數(shù)幾家媒體之一,MC參加了7月9日在AMD Austin總部舉行的第二代AMD EPYC NDA Reviewer Day培訓,提前了解了第二代AMD EPYC的相關信息。在現(xiàn)場的介紹和演示中,AMD展示了兩顆EPYC 7742組建的雙路系統(tǒng)在實際測試中的性能表現(xiàn)(AMD提供了由兩顆EPYC 7742處理器組建的雙路服務器參考設計,代號為“Daytona”,也就是我們測試的這套系統(tǒng)。),并將其測試結(jié)果與競爭對手的雙路Xeon 8280進行了對比,那么對比結(jié)果如何呢?下面我們就一起來看看。
首先在測試系統(tǒng)信息方面,該系統(tǒng)除了兩顆EPYC 7742處理器以外,測試平臺中還搭載了美光RDIMM DDR4 320032GB×16內(nèi)存、美光256GB SSD等硬件,操作系統(tǒng)使用的是Ubuntu 19.04(該系統(tǒng)可完整支持256線程),在我們的實際測試中,除了SPEC基于Ubuntu,其它測試都是基于CentOS 7.6版本進行的。
從AMD的測試成績來看,搭載雙路EPYC7742處理器的Daytona在SPECrate2017_int_base和SPECrate2017_fp_base這兩個測試項目中的表現(xiàn)均大幅領先競品。首先在測試處理器整數(shù)運算性能的SPECrate2017_int_base中,Daytona的最高得分達到640分,而競品的測試成績?yōu)?59分,前者領先約78%。此外在測試處理器浮點運算眭能的SPECrate2017_fp_base中,Daytona的領先優(yōu)勢也達到71%左右。不僅如此,在測試服務器JAVA應用性能的兩個SPECjbb 2015測試項目中,Daytona也擁有非常明顯的優(yōu)勢。
EPYC 7742雙路系統(tǒng)擁有16個內(nèi)存通道,支持DDR43200內(nèi)存頻率,并且在內(nèi)存帶寬上大幅領先競品。而從AMD測試的Stream-Triad成績來看,搭載雙路EPYC 7742處理器的Daytona在內(nèi)存帶寬方面的表現(xiàn)的確比較亮眼——經(jīng)過優(yōu)化之后,Daytona在Stream-Triad中的測試帶寬達到352087MB/s,甚至超過了競品的最高理論內(nèi)存帶寬。不僅如此,AMD還使用Intel MLC(一款測試內(nèi)存延遲和帶寬的工具)測試Daytona的內(nèi)存帶寬。結(jié)果顯示Daytona在這款測試軟件中的內(nèi)存帶寬也達到300000MB/s以上。值得一提的是,從Stream和Intel MLC的測試結(jié)果我們可以看到,在不同的NUMA模式下,內(nèi)存帶寬的確有所不同,其中NPS4的內(nèi)存帶寬最高,NPS2和NPS1的內(nèi)存帶寬則依次降低。
此外在phoronix test suite測試軟件中,AMD首先對比了C-ray 1.1、7-Zip Compression和NAMD這3個測試項目的成績。結(jié)果顯示,Daytona在這3個測試項目中的表現(xiàn)均明顯領先競品。不僅如此,在其他3個phoronix test suite測試項目中,Daytona的測試結(jié)果同樣優(yōu)勢明顯。
最后在UnixBench的兩個測試項目中,無論是單線程還是多線程性能上,搭載雙路EPYC 7742處理器的Daytona在UnixBench Whetstone中的性能都大幅領先于競品,而且得益于更多的核心數(shù)和線程數(shù),Daytona在UnixBench Whetstone的多線程測試中的成績更是競品的3倍多。
MC獨家首測:雙路EPYC 7742一騎絕塵
作為參加NDA Reviewer Day的全球少數(shù)幾家媒體之一,MC還在第一時間對EPYC 7742雙路服務器系統(tǒng)進行了獨家測試,而測試結(jié)果也給我們帶來了不小的驚喜。
在測試平臺的搭建方面,為了讓我們的測試結(jié)果更具對比性,測試系統(tǒng)中我們盡可能保證測試平臺的一致性,例如在測試中我們?nèi)匀贿x用了DDR4 3200內(nèi)存(32GB×16)。需要說明的是,我們在測試中使用的BIOS版本為RDY1001C。相比前文中AMD給出的資料中使用的BIOS,我們在測試中使用的這版BIOS在前者的基礎上進行了優(yōu)化,同時AMD的工程師也指出,經(jīng)過優(yōu)化的BIOS可進一步提升EPYC 7742雙路系統(tǒng)的性能。
為了讓大家對EPYC 7742雙路系統(tǒng)的性能有更加直觀地認識,我們決定將第一代EPYC處理器中的旗艦級產(chǎn)品EPYC7601作為對比產(chǎn)品。不過需要說明的是,由于EPYC 7601和EPYC 7742還不能在同一平臺上進行測試,所以我們?yōu)镋PYC7601另外搭建了一個雙路測試平臺。此外,由于EPYC 7601最高支持的內(nèi)存頻率為DDR4 2666,所以我們在測試中為它搭配的是16通道DDR4 2666內(nèi)存,從而讓它發(fā)揮出應有的實力。
SPECrate 2017
SPECrate 2017測試的是在單位時間內(nèi)運行的實例數(shù)量,這是服務器采購時的主要性能指標,所以服務器廠商和處理器廠商通常提供的是這一成績。在SPECrate 2017中包含SPECrateInteger和SPECrate Floating Point,前者測試的是整型并發(fā)性能,后者測試的是浮點并發(fā)性能。
得益于雙倍核心數(shù)和線程數(shù),相比上一代旗艦,雙路EPYC 7742在SPECrate 2017的性能提升非常明顯。首先在SPECrate2017_Int_base中,雙路EPYC 7742的測試成績是雙路EPYC 7601的2.4倍。而在SPECrate2017_fp_base中,雙路EPYC 7742的測試成績也領先雙路EPYC 7601約96%。不僅如此,對比前文中AMD給出的資料我們不難發(fā)現(xiàn),我們的實測成績還有小幅領先??梢娢覀儨y試時使用的最新版本BlOS的確能夠提升EPYC 7742雙路系統(tǒng)的性能。此外,由于SPEC官網(wǎng)上公開展示了雙路Xeon 8280雙路的SPECrate2017_int_base和SPECrate2017_fp_base測試結(jié)果(分別為359和293),該成績可以作為參考。將這一測試結(jié)果和雙路EPYC 7742進行對比之后我們可以看到,后者在SPECrate2017_int_base和SPECrate2017_fp_base中優(yōu)勢非常明顯,并且領先幅度分別達到約90%和78.5%。
Stream-Traid
Stream是業(yè)界廣為流行的綜合性內(nèi)存帶寬實際性能測量工具之一。和硬件廠商提供的理論最大內(nèi)存帶寬不同,通過fortran和C兩種高級且高效的語言編寫完成的Stream,可以在測試中充分發(fā)揮出內(nèi)存的能力。Stream中一共包含Copy、Scale、Add和Triad這4種操作,由于Triad組合了前面3種操作,所以其測試成績更具參考價值。
雖然雙路EPYC 7742和雙路EPYC7601均最多可支持16個內(nèi)存通道,但由于前者最高可支持DDR4 3200頻率內(nèi)存(后者最高可支持DDR4 2666內(nèi)存),所以雙路EPYC 7742在Stream-Triad內(nèi)存帶寬測試中的表現(xiàn)更加優(yōu)秀,達到356248MB/s。這一測試成績不僅小勝AMD給出的結(jié)果,同時也領先雙路EPYC7601的內(nèi)存實測帶寬約31%。此外,雙路Xeon 8280理論最大內(nèi)存帶寬為282GB/s,相比之下雙路EPYC 7742的實際內(nèi)存帶寬已經(jīng)遠超雙路Xeon 8280的內(nèi)存帶寬最大理論值。
HPL
HPL的英文全稱為“High-Performance Linpack”,Linpack是國際上一款用于測試高性能計算機系統(tǒng)浮點性能的基準測試工具。通過對高性能計算機采用高斯消元法求解一元N次稠密線性代數(shù)方程組的測試,考量高性能計算機的浮點性能。從HPL的測試成績我們可以看到,雙路EPYC 7742在這項測試中把雙路EPYC 7601遠遠甩在了身后——前者的測試成績?yōu)?938,領先后者約240%。
C-ray 1.1
C-ray是一種常用的光線追蹤基準測試,可以顯示多線程工作負載下處理器的差異,時間越短說明系統(tǒng)性能越強。在本次測試中,我們使用74K和8K這兩種分辨率進行測試,從而對比參測系統(tǒng)在不同負載下的性能差異。從測試成績可以看到,雙路EPYC7742在4K分辨率下的測試耗時不僅比AMD給出的測試結(jié)果更短,并且也同樣大幅領先競品。不僅如此,在8K分辨率下,雙路EPYC 7742的測試耗時也同樣不足雙路EPYC 7601的一半。我們認為,由于C-ray對處理器的核心數(shù)、頻率和緩存差異都非常敏感,所以擁有更多核心數(shù)、更高頻率和更大緩存的雙路EPYC7742能夠大幅領先也在意料之中。
7-Zip壓縮性能
7-zip是一種廣泛使用的壓縮解壓程序,它可以跨平臺工作。該項測試早期主要基于Windows平臺,目前也是Linux-Bench的一部分。此項測試的結(jié)果主要是通過壓縮的MIPS來排序,數(shù)值越大越好。在這項測試中,雙路EPYC 7742的測試成績?yōu)?16967MIPS,相比AMD給出的測試結(jié)果,我們的實測成績提升約16%,同時參考AMD給出的競品測試成績可以看到,雙路EPYC 7742實測成績的領先幅度達到70%以上。
NAMD
NAMD是由伊利諾伊大學厄巴納-香檳分校貝克曼高級科學與技術研究所的理論和計算生物物理學小組開發(fā)的分子模擬基準測試。對比AMD給出的測試成績可以看到,我們的雙路EPYC7742測試成績有明顯提升,進一步增加和競品的優(yōu)勢。此外和上一代產(chǎn)品相比,雙路EPYC 7742的性能表現(xiàn)幾乎是前者的兩倍。
劉宏兵:如今的中國互聯(lián)網(wǎng)市場已經(jīng)相對成熟,大量的中國互聯(lián)網(wǎng)客戶越來越重視TCO和收益,同時大眾也在關注這些互聯(lián)網(wǎng)公司的收益,這正是第二代AMD EPYC處理器的優(yōu)勢所在。
MC:請問AMD在中國的服務器合作伙伴戰(zhàn)略是怎樣的?
Scott Aylor:我們有很多中國的合作伙伴,而且宏兵和他的團隊也在非常努力地工作,去支持和幫助中國的服務器廠商開發(fā)滿足市場需求的服務器系統(tǒng)。因此,我們的生態(tài)系統(tǒng)正在持續(xù)壯大,中國本地服務器OEM也正在對很多服務器設計進行開發(fā)。
劉宏兵:其實我們在中國的合作伙伴生態(tài)建設有兩個方向。一是大家經(jīng)常想到的服務器廠商和本地OEM。今天,我們還有很多全球性的ODM,這些ODM進來以后,在本地也會變成OEM,來制造服務器設備。另外一個方向是我們和內(nèi)存廠商、硬盤廠商、網(wǎng)卡廠商進行合作,比如我們跟所有支持PCIe 4.0的廠商合作,一起來構(gòu)建生態(tài)體系統(tǒng)。
MC:請問AMD如何通過這種硬件加軟件協(xié)作優(yōu)化的方式來幫助OEM廠商和客戶獲得更好的AI性能?
Scott Aylor:的確,AI現(xiàn)在是一個非常有前景的領域,而且它橫跨很多行業(yè)。您可以看到AMD帶來了很多的先進技術與能力,我們將第二代AMD EPYC處理器與高性能的GPU相連接,適用于訓練的應用場景(Trainning Scenario)。這種配置同時支持PCIe 4.0,也就是說把連接到GPU的帶寬加倍了,從而可以對我們的機器學習和訓練應用進行非常好地加速。在發(fā)布會上,我們還展示了基于AMD平臺的參考設計(Reference Design),它基于支持PCIe 4.0的兩顆第二代AMD EPYC處理器和8個Radeon Instinct M160 GPU,可以大幅提升機器學習的效能。在未來,我們也會將這種參考設計提供給OEM。
MC:從目前展示的AMD跟合作伙伴的合作來看,大部分都是雙路的案例,很少看到單路的案例。請問AMD對單路服務器市場有怎樣的看法和預期?
ScoOtt Aylor:事實上在單路服務器方面,我們的第一代EPYC處理器在市場上就有很好的采用度,而且單路服務器也非常適合廣泛的網(wǎng)絡(Web)技術領域,即那些不需要最高計算性能、用單路服務器即可滿足需求的企業(yè)客戶。不僅如此,我們第二代AMD EPYC處理器服務器芯片有80項記錄,其中有很大一部分比例的記錄都是來自于單路服務器系統(tǒng)。
MC觀點
從目前來看,雖然英特爾在數(shù)據(jù)中心領域占有大量市場份額,但憑借7nm生產(chǎn)工藝、Zen 2架構(gòu),以及極具進攻性的定位和定價,AMD推出的第二代EPYC處理器同樣擁有很強的市場競爭力。此外,Lisu Su博士也曾表示,AMD的目標是在未來的幾個季度實現(xiàn)雙位數(shù)的市場份額,可見AMD對第二代EPYC處理器在今后的市場表現(xiàn)也有足夠的信心。那么隨著第二代AMD EPYC處理器的上市,數(shù)據(jù)中心領域?qū)瓉碓鯓拥淖兏?,它能否成為AMD在數(shù)據(jù)中心市場份額增長的助力呢?相信市場反饋會給我們答案。