• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    威盛歸來(lái),意欲為何?新款CENTAURx86Al處理器解析

    2020-04-15 03:53:10張平
    微型計(jì)算機(jī) 2020年6期
    關(guān)鍵詞:威盛寄存器英特爾

    張平

    作為全球著名的半導(dǎo)體企業(yè),威盛在各類(lèi)處理器、音視頻編解碼芯片、嵌入式設(shè)備等行業(yè)中有著深厚的技術(shù)積累。之前,威盛曾經(jīng)在x86處理器研發(fā)上有獨(dú)到之處,先后推出過(guò)多代自主架構(gòu)的x86處理器產(chǎn)品。不過(guò)由于性能較差、市場(chǎng)接受度不高等原因,威盛數(shù)年前在x86處理器市場(chǎng)上就幾乎銷(xiāo)聲匿跡。但是近期威盛又推出了一款全新的x86處理器,其獨(dú)特之處在于大幅度加強(qiáng)7AI計(jì)算性能,那么,這款處理器有什么特色設(shè)計(jì)與用途呢?今天本文就將為你揭開(kāi)這個(gè)秘密。

    威盛在x86處理器的故事其實(shí)很早就開(kāi)始了,這還要從_家名為Cyrix的公司說(shuō)起。Cyrix公司是一家成立于1988年的無(wú)晶圓半導(dǎo)體設(shè)計(jì)企業(yè),以生產(chǎn)兼容英特爾286、386、486等指令集的高性能處理器為主,曾一度在性能或者規(guī)格上超越英特爾的產(chǎn)品。不過(guò),在經(jīng)歷了專(zhuān)利、財(cái)務(wù)、并購(gòu)、產(chǎn)品和設(shè)計(jì)方面的重重阻礙后,Cyrix最終落敗,被威盛收購(gòu)(實(shí)際上收購(gòu)時(shí)Cyrix的設(shè)計(jì)團(tuán)隊(duì)已經(jīng)幾乎全部離職了)。經(jīng)此一役,威盛也得到了Cyrix所有的知識(shí)產(chǎn)權(quán),再加上其另外從IDT收購(gòu)的處理器設(shè)計(jì)部門(mén)組建的Centaur Technology公司,威盛也能夠獨(dú)立進(jìn)行x86處理器的設(shè)計(jì)了。

    威盛的首款x86處理器是2001年發(fā)布的C3,—度采用VIA CyrixⅢ的命名,但實(shí)際上技術(shù)來(lái)自于CentaurTechnology公司的WinChip,和Cyrix關(guān)系不大。C3處理器前后經(jīng)歷了4代核心,工藝制程從0.18微米進(jìn)步至0.13微米,早期由于FPU單元時(shí)鐘頻率僅為處理器核心頻率的一半,因此其浮點(diǎn)效能比較差,后期有所改善。C3處理器整體性能比AMD和英特爾同期產(chǎn)品要弱,同時(shí)功耗也更低,因此在移動(dòng)產(chǎn)品和嵌入式設(shè)備、工業(yè)設(shè)備中比較受歡迎。

    在C3處理器之后,威盛在2005年發(fā)布了C7處理器。C7處理器采用CooIStream架構(gòu),使用90nm工藝制造,桌面版本在2.OGHz頻率下的最大功耗僅為20W。由于功耗低,因此威盛繼續(xù)瞄準(zhǔn)嵌入式設(shè)備、HTPC市場(chǎng)以及移動(dòng)設(shè)備等。隨后威盛還推出了面向移動(dòng)產(chǎn)品的C7-M,超低功耗版本C7-M的最大功耗僅為8W,進(jìn)一步奠定了威盛在低功耗市場(chǎng)的地位。

    接下來(lái)的2008年,威盛發(fā)布了旗下第三款處理器架構(gòu)和對(duì)應(yīng)的產(chǎn)品,VIA NANO,中文名稱(chēng)為凌瓏。這款處理器的架構(gòu)名為“以賽亞”,最大特點(diǎn)在于采用了亂序執(zhí)行架構(gòu),制程方面則使用65nm工藝和40nm工藝制造,早期為單核心產(chǎn)品,后期推出了雙核心版本,處理器主頻最高可達(dá)2.OGHz。功耗方面,桌面產(chǎn)品功耗不高于25W,移動(dòng)產(chǎn)品的功耗在5W-8W之間,后期雙核心版本最低達(dá)到3.5W,最高9W-25W,依舊非常之低。

    和之前的處理器一樣,威盛凌瓏也面向的是移動(dòng)設(shè)備、低功耗設(shè)備、工業(yè)設(shè)備等場(chǎng)合,業(yè)內(nèi)普遍認(rèn)為威盛凌瓏處理器是英特爾Atom處理器最大的競(jìng)爭(zhēng)對(duì)手之一。后期威盛還基于這款處理器架構(gòu)推出了四核心版本,被稱(chēng)為VIA QuadCore,這也是威盛首個(gè)四核心處理器產(chǎn)品??傮w來(lái)看,VIA NANO的性能、功耗都具備與當(dāng)時(shí)對(duì)手的同級(jí)產(chǎn)品Atom競(jìng)爭(zhēng)的能力,顯示出在專(zhuān)業(yè)市場(chǎng)威盛依然有希望分得一杯羹,為此威盛開(kāi)始開(kāi)發(fā)他們的第四款處理器。

    威盛第四款處理器問(wèn)世——Centaur

    威盛在2019年年底的時(shí)候公開(kāi)了一種名為”Centaur”的全新處理器系列。這也是威盛旗下的處理器部門(mén)在建立后推出的第四個(gè)全新的處理器架構(gòu),距離上一代處理器發(fā)布的時(shí)間已經(jīng)過(guò)超過(guò)8年之久。Centaur的意思是半人馬,這是一種在希臘神話(huà)中出現(xiàn)的怪物,人頭馬身,戰(zhàn)斗力和移動(dòng)能力都非常驚人??紤]到這款處理器特色的性能和定位,命名其為Centaur半人馬也是相當(dāng)符合其預(yù)期的形象。

    Centaur處理器的研發(fā)代號(hào)為”CHA”,特點(diǎn)在于將八個(gè)高性能的CPU核心和深度定制的深度學(xué)習(xí)加速器DLA相結(jié)合,因此能夠在AI計(jì)算上表現(xiàn)出非常出色的效能。這也是全球首個(gè)宣布在CPU中集成DLA相關(guān)模塊的產(chǎn)品或者公司。新加入的名為Ncore的加速器甚至擁有比英特爾Xeon至強(qiáng)處理器還出色很多的神經(jīng)網(wǎng)絡(luò)計(jì)算能力,但同時(shí)它大大降低了用戶(hù)使用外部GPU來(lái)加速類(lèi)似計(jì)算所耗費(fèi)的成本。威盛從2019年9月開(kāi)始測(cè)試這款處理器的硅片,首款產(chǎn)品可能會(huì)在2020年生產(chǎn)或者上市——當(dāng)然實(shí)際情況是迄今為止威盛都沒(méi)有展示任何的產(chǎn)品計(jì)劃,因此還有待進(jìn)一步的觀察。

    在威盛的設(shè)計(jì)中,作為協(xié)處理器運(yùn)行的Ncore并沒(méi)有使用目前深度學(xué)習(xí)最常見(jiàn)的MAC(乘積累加運(yùn)算,Multiply Accumulate,MAC)陣列,而是采用了更為傳統(tǒng)的可編程SIMD引擎,不過(guò)令人驚訝的是,Ncore的SIMD的效率驚人,計(jì)算倍數(shù)極高。在這里,威盛設(shè)計(jì)了一個(gè)單元,可以一次性并行處理4096字節(jié),在計(jì)算INT8也就是8位整數(shù)的時(shí)候峰值性能能夠達(dá)到每秒20萬(wàn)億次。此外,為了滿(mǎn)足寬幅計(jì)算的需求,威盛還為這個(gè)加速器配備了專(zhuān)用的16MB SRAM單元。Ncore的架構(gòu)師Glenn Henry將這種方法比喻為AVX-32768,這意味著威盛的SIMD架構(gòu)寬度是英特爾的64倍。

    除了專(zhuān)用的加速單元外,Centaur處理器還擁有一種全新的x86微體系架構(gòu),被稱(chēng)為CNS,其目標(biāo)是每時(shí)鐘周期的性能(IPC)比威盛之前的產(chǎn)品有大幅度提升。這種新的體系結(jié)構(gòu)可以每個(gè)周期解碼4條x86指令,并行執(zhí)行10個(gè)包括3次加載,存儲(chǔ)的微指令等。在頻率方面,這款處理器使用了臺(tái)積電成熟的16nm工藝,主頻為2.5GHz。宏觀架構(gòu)方面,一個(gè)Centaur處理器內(nèi)部包含了8個(gè)x86核心,所有的核心共享16MB L3緩存。外部數(shù)據(jù)連接方面,這款處理器擁有4個(gè)DDR4通道,提供44條PCle 3.0通道。處理器還可以支持雙路系統(tǒng),目標(biāo)瞄準(zhǔn)低成本服務(wù)器和邊緣計(jì)算等任務(wù)。

    另外還有一些消息值得分享。威盛的處理器設(shè)計(jì)單位并不在威盛位于我國(guó)臺(tái)灣的總部,而是威盛位于美國(guó)德克薩斯州奧斯汀的全資子公司Centaur Technology(注意公司名稱(chēng)),這家公司為威盛設(shè)計(jì)處理器已經(jīng)有20多年了,不過(guò)一直以來(lái)都不被外界人員過(guò)多關(guān)注和了解。公司近期以來(lái)比較大的變化是增加了名為AlLoper的新總裁,之前的總裁Henry則繼續(xù)擔(dān)任公司的AI架構(gòu)設(shè)計(jì)師。這可能也是Centaur處理器誕生的原因之一吧。

    新設(shè)計(jì):N co re加速核心

    作為片上加速器,Ncore在片上集成的很大優(yōu)勢(shì)就在于這種設(shè)計(jì)能夠降低成本、功耗、芯片面積,并且在數(shù)據(jù)交換方面相比外置設(shè)計(jì)無(wú)論是速率還是能效比都更為出色,同時(shí)還帶來(lái)了更為寬松的計(jì)算任務(wù)劃分靈活性。

    在架構(gòu)設(shè)計(jì)方面,之所以沒(méi)有選擇目前流行的MAC架構(gòu),是因?yàn)樵O(shè)計(jì)單位CentaurLB心MAC架構(gòu)可能會(huì)在快速進(jìn)化的神經(jīng)網(wǎng)絡(luò)算法應(yīng)用中過(guò)時(shí),因此最后還是選擇了經(jīng)典的SIMD架構(gòu)。SIMD架構(gòu)的缺陷在于相比MAC架構(gòu)其計(jì)算開(kāi)銷(xiāo)更多,因?yàn)樗仨氃诿總€(gè)周期將數(shù)據(jù)移入和移出寄存器,但是SIMD靈活性更高,能夠處理更廣泛的算法,包括那些經(jīng)常執(zhí)行非MAC操作的算法,因此在這里選擇SIMD是更為合適的。

    目前的DLA計(jì)算往往都實(shí)現(xiàn)了VLIW的架構(gòu)和算法,也就是說(shuō),一條128位的指令可以控制整個(gè)管道的運(yùn)作方式。在Centaur處理器中,x86核心可以將這些VILW指令加載到Ncore的指令RAM中,該RAM可以容納768條指令(12KB)。另外還有一個(gè)4KB的特殊指令緩存,包含了一些自檢代碼和常見(jiàn)的子程序,這樣可以減少指令RAM中的死區(qū),能夠有更多更寬裕的空間用于真正的計(jì)算指令存放。Ncore每個(gè)周期存取一條指令,然后對(duì)其解碼,并使用定序器控制計(jì)算管道和內(nèi)存。定序器包含16個(gè)地址寄存器和一個(gè)地址計(jì)算單元,后者可以通過(guò)可選的、自動(dòng)遞增的方式來(lái)計(jì)算各種地址的硬件(比如基準(zhǔn)值+偏移量)。另外,Ncore內(nèi)還擁有循環(huán)計(jì)數(shù)器和其他的特殊寄存器等。定序器還能控制環(huán)形接口的2個(gè)DMA引擎,從而允許指令直接向x86處理器的存儲(chǔ)器傳遞數(shù)據(jù)。

    在Ncore的內(nèi)部存儲(chǔ)器方面,目前的設(shè)計(jì)將這個(gè)存儲(chǔ)器分為了兩部分,分別是D-RAM和W-RAM。每個(gè)RAM部分可以在每周期提供4096字節(jié)的向量,在2.5GHz時(shí)產(chǎn)生20T B/s的總帶寬。不過(guò)由于總線(xiàn)設(shè)計(jì)原因,Ncore內(nèi)部的RAM每周期只能選擇一個(gè)寫(xiě)入,這樣可以與計(jì)算管道的輸出速率匹配。另外,整個(gè)處理器內(nèi)部的環(huán)形總線(xiàn)會(huì)中斷Ncore內(nèi)部存儲(chǔ)器的序列,這可能是由于優(yōu)先級(jí)更高的原因。不過(guò)這樣的中斷很少發(fā)生,因?yàn)?096字節(jié)的數(shù)據(jù)寫(xiě)入需要花費(fèi)64個(gè)時(shí)鐘周期才能加載完成。對(duì)一些高可靠性應(yīng)用,2個(gè)RAM都在整個(gè)4096字節(jié)的輸出值中采用了64位ECC校驗(yàn),確保數(shù)據(jù)的穩(wěn)定可靠。

    在計(jì)算過(guò)程中,來(lái)自RAM的數(shù)據(jù)首先進(jìn)入數(shù)據(jù)單元,在執(zhí)行了各種移位和置換功能之后等待進(jìn)一步處理。具體而言,這一步操作可以在2.5GHz時(shí)鐘周期內(nèi)執(zhí)行多達(dá)3項(xiàng)功能,比如將整個(gè)4096字節(jié)向量旋轉(zhuǎn)最多64個(gè)字節(jié)、廣播單個(gè)INT8值(比如權(quán)重?cái)?shù)據(jù))以填充向量,壓縮塊、交換字節(jié)等。

    對(duì)于單個(gè)寄存器來(lái)說(shuō),如此寬的向量需要占用可觀的芯片面積,并且整個(gè)數(shù)據(jù)單元還包含了4個(gè)類(lèi)似的寄存器,這個(gè)設(shè)計(jì)可能充分考慮了寄存器給每平方毫米性能帶來(lái)的影響。最終我們看到處理器可以在每個(gè)時(shí)鐘周期讀取或者寫(xiě)入這些寄存器的任意一個(gè),例如它可以使用其他寄存器之一作為字節(jié)掩碼,將RAM數(shù)值和寄存器數(shù)值合并。此外,在能源方面,1到2個(gè)閑置的RAM可以在一定周期內(nèi)關(guān)閉電源,但這種操作并不影響整個(gè)計(jì)算單元繼續(xù)以峰值吞吐量進(jìn)行計(jì)算。

    Al計(jì)算:強(qiáng)大的SIMD引擎

    Ncore的計(jì)算能力來(lái)自于其內(nèi)部強(qiáng)大的SIMD引擎。這個(gè)SIMD引擎能夠處理每個(gè)周期從數(shù)據(jù)單元寄存器中提取的2個(gè)向量操作數(shù),并針對(duì)INT8數(shù)據(jù)進(jìn)行優(yōu)化,使其在每個(gè)周期都可以納入計(jì)算。此外,這個(gè)計(jì)算單元還可以INT16和Bfloat 16數(shù)值進(jìn)行操作,不過(guò)這些數(shù)據(jù)需要3個(gè)周期才能完成計(jì)算,這樣一來(lái)吞吐量就有所降低,一些用戶(hù)更喜歡1 6位數(shù)據(jù)以提高精度。另一個(gè)小技巧是,由于一些計(jì)算通常對(duì)INT8數(shù)值進(jìn)行量化,因此在進(jìn)一步計(jì)算之前,處理單元會(huì)將其轉(zhuǎn)換為帶符號(hào)的INT9數(shù)值(通過(guò)減去可變偏移量)進(jìn)行操作。另外計(jì)算單元可以執(zhí)行MAC操作,使用4096x32位的累加器,支持INT32或者FP32,并在溢出時(shí)達(dá)到飽和。除此之外,計(jì)算單元還可以執(zhí)行ALU操作,包括min/max等。計(jì)算單元內(nèi)還加入了8個(gè)預(yù)測(cè)寄存器,允許指令有條件地更新累加器。

    計(jì)算完成后,輸出單元將執(zhí)行后續(xù)部分的處理。它通常將32位累加器的數(shù)值轉(zhuǎn)換為INT8、INT16或者BF16格式,以便在內(nèi)存中實(shí)現(xiàn)更高效的存儲(chǔ)。如果需要,完整的32位值可以作為4個(gè)4096字節(jié)的向量輸出。輸出單元還擁有歸一化的功能,比如對(duì)線(xiàn)性整流函數(shù)(Rectified Linear Unit,簡(jiǎn)稱(chēng)ReLU)、Sigmoid函數(shù)以及雙曲正切函數(shù)tanh,都可以將結(jié)果直接轉(zhuǎn)發(fā)到數(shù)據(jù)單元以進(jìn)行下一輪處理,也可以將結(jié)果存儲(chǔ)在2個(gè)RAM之中。

    整個(gè)Ncore的設(shè)計(jì)在臺(tái)積電的16nmFFC工藝中大約需要34.4平方毫米,這個(gè)面積大概是8核心CPU集群的一半。DLA部分的裸片面積大約有三分之二都被16MB的SRAM占據(jù)。Ncore的模型圖中顯示了將計(jì)算單元分為16個(gè)區(qū)塊以簡(jiǎn)化設(shè)計(jì)過(guò)程,其中的綠色區(qū)域表示數(shù)據(jù)單元中密集的金屬布線(xiàn)。這個(gè)部分是作為數(shù)據(jù)路由使用,主要用于重新排列數(shù)據(jù),中央部分還包含了指令單元和環(huán)形總線(xiàn)接口等部件。

    在軟件方面,Centaur公司的設(shè)計(jì)人員構(gòu)建了一個(gè)基本的軟件堆棧,可將TensorFlow Lite模型轉(zhuǎn)換為內(nèi)部圖形格式,然后將其編譯為Ncore所需的格式進(jìn)行計(jì)算。不僅如此,這個(gè)基本軟件堆棧還為x86內(nèi)核提供運(yùn)行的編譯或者轉(zhuǎn)換,還可以管理DLA部分,并可以利用程序代碼運(yùn)行預(yù)編譯的神經(jīng)網(wǎng)絡(luò)。這個(gè)軟件可以很好地處理推理功能,但是不處理訓(xùn)練。在未來(lái)的計(jì)劃中,Centaur公司希望為這款處理器增加對(duì)其他標(biāo)準(zhǔn)框架(如TensorFlow和Pytorch)以及標(biāo)準(zhǔn)ONNX格式和新興MLIR格式的支持。

    CPU架構(gòu)設(shè)計(jì):更多的微指令和更好的IPC

    從架構(gòu)設(shè)計(jì)來(lái)看,本次威盛在CNS CPU的架構(gòu)設(shè)計(jì)上相比之前威盛的所有處理器都大大向前推進(jìn)了一大步,比如之前的“以賽亞”架構(gòu)等。但是,還是有不少技術(shù)顯示了技術(shù)的繼承關(guān)系。比如威盛之前的“以賽亞”架構(gòu)每個(gè)周期可以解碼3條x86指令,并且在起亂序執(zhí)行流水線(xiàn)中每周期可以完成7個(gè)微指令。在CNS架構(gòu)上,新的架構(gòu)將解碼能力擴(kuò)展到了4解碼和10個(gè)執(zhí)行單元,再加上工藝進(jìn)步帶來(lái)的晶體管數(shù)量富余,因此新架構(gòu)還實(shí)現(xiàn)了更大的重排序窗口設(shè)計(jì)、更準(zhǔn)確的分支預(yù)測(cè)單元和更復(fù)雜的程序調(diào)度能力。特殊功能方面,Centaur公司還加入了一些新的專(zhuān)有指令,用于將數(shù)據(jù)傳輸?shù)紻LA并進(jìn)行處理。當(dāng)然,考慮到這款處理器對(duì)AI計(jì)算的支持,這樣的操作也是理所應(yīng)當(dāng)?shù)摹?/p>

    此外,CNS架構(gòu)還支持256位的AVX和AVX2操作,甚至也能夠支持比較初級(jí)的AVX-512擴(kuò)展。尤其是AVX-512擴(kuò)展,雖然目前的消息顯示其比較早期,但是考慮到AMD暫時(shí)沒(méi)有引入這項(xiàng)指令集擴(kuò)展,同時(shí)在實(shí)際應(yīng)用中AVX-512能夠表現(xiàn)出非常出色的性能優(yōu)勢(shì),CNS架構(gòu)在這一點(diǎn)上還是值得期待的。還有一個(gè)值得關(guān)注的特性就是,CNS不支持SMT等技術(shù),每個(gè)內(nèi)核只有一個(gè)線(xiàn)程,因此目前的8個(gè)物理內(nèi)核只能提供8個(gè)線(xiàn)程。

    進(jìn)一步來(lái)看CNS架構(gòu)的內(nèi)部設(shè)計(jì)。當(dāng)一個(gè)計(jì)算流水線(xiàn)正常啟動(dòng)時(shí),分支預(yù)測(cè)器會(huì)確定下一條指令的地址,然后CPU從指令緩存中獲取32個(gè)字節(jié)的指令并交由預(yù)解碼器確定指令邊界,接下來(lái)會(huì)將四個(gè)x86指令加載到指令隊(duì)列中。解碼器通常每個(gè)周期處理4個(gè)指令,但是某些x86指令對(duì)可以一起解碼,最多可以在一個(gè)周期內(nèi)產(chǎn)生5個(gè)指令。接下來(lái),解碼器可以將這些指令轉(zhuǎn)換為微指令( micro-ops)。

    接下來(lái),寄存器重命名單元會(huì)將請(qǐng)求的寄存器空間映射到更大的物理寄存器內(nèi),并形成新的文件。新的文件包含了192個(gè)整數(shù)條目和192個(gè)FP/AVX條目。寄存器重命名單元每個(gè)周期可以處理6個(gè)微指令,并將它們分配給統(tǒng)一調(diào)度程序。當(dāng)這些輸入數(shù)值準(zhǔn)備完成,就會(huì)由64-entry的排序調(diào)度單元發(fā)出微指令。當(dāng)微指令發(fā)生停頓時(shí),也不會(huì)阻塞整個(gè)管道流水線(xiàn),調(diào)度程序在等待這個(gè)阻塞解決的同時(shí)也會(huì)繼續(xù)發(fā)出后續(xù)的微指令,確保整個(gè)流程順利完成。

    調(diào)度程序會(huì)同時(shí)向10個(gè)執(zhí)行單元發(fā)出微指令。整個(gè)CNS內(nèi)部有4個(gè)整數(shù)單元,其中2個(gè)具有乘法器,另外2個(gè)具有位處理單元(BMU),所有的整數(shù)單元每周期最多可以處理2個(gè)分支指令。CPU還有2個(gè)FP/AVX單元,其中包含浮點(diǎn)乘法累加(MAC)單元。另外,第3個(gè)FP/AVX單元能夠處理FP分屏和AES加速操作,這3個(gè)單元都能夠處理AVX整數(shù)指令。由于這些單元的寬度全部都是256位,因此AVX-512指令可以被指令解碼單元分解為2個(gè)微指令。MAC單元每個(gè)周期能夠產(chǎn)生一個(gè)結(jié)果,加法或者乘法操作具有3個(gè)周期的延遲,相比之下,完整的MAC計(jì)算需要耗費(fèi)5個(gè)周期。

    數(shù)據(jù)處理方面,CNS架構(gòu)具有2個(gè)數(shù)據(jù)加載單元和1個(gè)數(shù)據(jù)地址存儲(chǔ)單元。數(shù)據(jù)加載單元也可以執(zhí)行存儲(chǔ)地址的操作,因?yàn)檫@個(gè)功能和生成加載地址的功能是基本相同的。整數(shù)單元和FP/AVX單元可以立刻執(zhí)行這些操作。另外,擁有116-entry的存儲(chǔ)器順序緩沖器即MOB則不斷地進(jìn)行負(fù)載和存儲(chǔ)操作,直到這些單元可以訪問(wèn)32KB的數(shù)據(jù)高速緩存為止。此數(shù)據(jù)高速緩存每個(gè)周期可以處理2個(gè)256位的加載或者存儲(chǔ)(以任何方式組合都可以),也可以將信息存儲(chǔ)至整數(shù)或者FP/AVX寄存器內(nèi)。和計(jì)算指令一樣,AVX512的加載和存儲(chǔ)需要分為2個(gè)微指令完成,高速緩存的每個(gè)周期總共只提供512位數(shù)據(jù),AVX可能一次就將其占滿(mǎn)。另外,2個(gè)L1緩存由一個(gè)專(zhuān)用的256KB L2緩存提供數(shù)據(jù)支持。緩沖區(qū)方面,192-entry的重排序緩沖區(qū)(ROB)會(huì)按照順序?qū)χ噶钸M(jìn)行重排序并完成工作。

    總的來(lái)看,CNS的管道需要20個(gè)步驟才能完成基本的整數(shù)計(jì)算,22個(gè)步驟才能完成數(shù)據(jù)緩存,緩存訪問(wèn)也高達(dá)5個(gè)階段。采用如此多的計(jì)算階段可以提高整個(gè)處理器的時(shí)鐘頻率,就像英特爾在Netbrust架構(gòu)中做的那樣(比如Pentium 4當(dāng)時(shí)的高頻率)。即使這樣,這款處理器在16n m下的頻率也僅為2.5GHz,遠(yuǎn)低于英特爾和AMD同期工藝的頻率,比如目前英特爾14nm工藝可以將處理器頻率推高至5GHz。不過(guò),相比英特爾和AMD這樣的競(jìng)爭(zhēng)對(duì)手,Centaur公司在優(yōu)化物理設(shè)計(jì)上花費(fèi)的時(shí)間較少,從而在很大程度上限制了處理器頻率的進(jìn)一步提升。

    緩存方面,每個(gè)CPU內(nèi)核都有2MB的L3緩存,并可以直接對(duì)其訪問(wèn)。8個(gè)CPU和它們的L3緩存通過(guò)環(huán)狀總線(xiàn)相連接。整個(gè)環(huán)狀總線(xiàn)設(shè)計(jì)了2個(gè)512位寬的總線(xiàn),數(shù)據(jù)傳遞總在節(jié)點(diǎn)和節(jié)點(diǎn)之間完成。環(huán)狀總線(xiàn)的運(yùn)行頻率和CPU相同,理論帶寬為320GB/s。由于數(shù)據(jù)通過(guò)一次環(huán)狀總線(xiàn)可能需要多個(gè)周期,因此實(shí)際可用吞吐量應(yīng)該不到此數(shù)據(jù)的一半。

    同時(shí)CNS支持四通道DDR4 3200內(nèi)存配置,并支持ECC內(nèi)存,可以提供最高102GB/s的峰值帶寬。另外處理器內(nèi)部還整合了44條PCle 3.0通道,也可以根據(jù)需求配置為不同的端口,這些前文也提到過(guò)了。處理器內(nèi)部本身集成了標(biāo)準(zhǔn)南橋功能,因此實(shí)現(xiàn)了完全的集成化解決方案。

    特色鮮明:Centaur處理器的性能和市場(chǎng)

    目前Centaur公司將這款處理器的性能等級(jí)稱(chēng)為“Haswell”級(jí),這還是相當(dāng)公允的。從其架構(gòu)設(shè)計(jì)來(lái)看,這款處理器的設(shè)計(jì)在大多數(shù)微架構(gòu)參數(shù)上都達(dá)到或者超過(guò)了英特爾Haswell的級(jí)別。這款架構(gòu)提供了更多的重命名寄存器和更大的互聯(lián)帶寬,不過(guò)缺少2個(gè)重要功能:SMT超線(xiàn)程技術(shù)和微指令緩存。前者在很多服務(wù)器的工作負(fù)載上能夠帶來(lái)20%-30%的性能提升,而后者可以通過(guò)大多數(shù)周期的禁用x86的解碼器來(lái)降低功耗。

    當(dāng)然,Haswell是2013年發(fā)布的處理器架構(gòu)了,英特爾當(dāng)前的處理器架構(gòu)核心基于Skylake(依舊非常古老),Skylake在某些方面比CNS架構(gòu)更為強(qiáng)大,比如前面說(shuō)到的超線(xiàn)程功能和微指令緩存。對(duì)于任何指令組合,Skylake可以每個(gè)周期解碼5個(gè)指令而CNS只有在某些情況下才能達(dá)到4個(gè),這就帶來(lái)了巨大的性能差距。

    不僅如此,兩類(lèi)處理器之間最大的區(qū)別在于,Skylake和之后的改進(jìn)型架構(gòu)在使用14nm+++的工藝下,能夠運(yùn)行在5GHz這樣的高頻率之下(超頻后甚至能達(dá)到5.2~5.3GHz),這相比CNS的峰值速度直接翻倍。不過(guò),考慮到大多數(shù)服務(wù)器都會(huì)運(yùn)行在略低的頻率以節(jié)省功耗,英特爾在速度方面的優(yōu)勢(shì)也得到了一定的限制。當(dāng)然,接下來(lái)英特爾lOnm、基于SunnyCove新架構(gòu)的服務(wù)器處理器也即將在2020年末發(fā)布,同時(shí)期CNS架構(gòu)也會(huì)正式投入生產(chǎn)。據(jù)悉,相比Skylake,SunnyCove的IPC司提升18%,英特爾進(jìn)一步拉開(kāi)了差距。

    不過(guò),雖然無(wú)法企及英特爾高端處理器的性能,但是CNS也有其獨(dú)特優(yōu)勢(shì),有在低端市場(chǎng)上和英特爾產(chǎn)品進(jìn)行競(jìng)爭(zhēng)的機(jī)會(huì)。比如英特爾入門(mén)級(jí)的Xeon Sliver 4208,這款處理器有8個(gè)Skylake內(nèi)核、支持6通道DDR4-2400內(nèi)存和48個(gè)PCle 3.0通道。Centaur處理器擁有類(lèi)似的DRAM和PCle規(guī)格,在TDP為85W的情況下,Xeon Sliver4208的運(yùn)行頻率只有2.1GHz,這要低于Centaur處理器,不過(guò)在輕負(fù)載下,Xeon Sliver 4208的頻率將能通過(guò)睿頻提升到3.2GHz。Centaur處理器的TDP數(shù)據(jù)現(xiàn)在尚未公布,不過(guò)據(jù)估計(jì)這款處理器即使在最高頻率下運(yùn)行,其TDP也比Xeon Sliver 4208更小一些,并且后者的標(biāo)價(jià)高達(dá)417美元,Centaur處理器如何定價(jià)尚不得而知。

    Centaur處理器最大的優(yōu)勢(shì)在于提供了對(duì)DLA的支持,根據(jù)Centaur的估計(jì),這款處理器Ncore的MLPerf性能大約和5000美元的Xeon Platinum相當(dāng)。這款處理器支持專(zhuān)門(mén)為深度學(xué)習(xí)量身打造的AVX512_VNNI指令集,在諸如MobileNet和ResNet-50等AI相關(guān)的測(cè)試中,支持這個(gè)指令集的處理器要比相似規(guī)格但不支持AVX512_VNNI指令集的Xeon Sliver處理器快了大約5倍。盡快英特爾可以將Xeon Sliver處理器和其新推出的NNP-I神經(jīng)網(wǎng)絡(luò)處理器結(jié)合起來(lái)以實(shí)現(xiàn)更高的性能,但同時(shí)將會(huì)帶來(lái)高得多的價(jià)格。英特爾目前還沒(méi)有正式給出NNP-I的價(jià)格,但是可能會(huì)在500-1000美元的水平。此外,GPU加速卡的價(jià)格也非常的昂貴,比如英偉達(dá)T4這種產(chǎn)品售價(jià)也高達(dá)2000美元,都遠(yuǎn)高于Centaur處理器。

    DLA引領(lǐng)者:瞄準(zhǔn)專(zhuān)業(yè)的市場(chǎng)

    Centaur公司的目標(biāo)是提供同類(lèi)產(chǎn)品中性?xún)r(jià)比最高的神經(jīng)網(wǎng)絡(luò)性能。威盛將最終決定Centaur處理器的價(jià)格,如果這款處理器的定價(jià)和XeonSlive r相當(dāng)?shù)脑?huà),那么實(shí)際上客戶(hù)將免費(fèi)獲得DLA性能。即使NNP-I或者T4的外部DLA加速器能夠帶來(lái)更出色的性能,但是昂貴的價(jià)格還是會(huì)嚇走一部分預(yù)算吃緊的客戶(hù),實(shí)際上這類(lèi)產(chǎn)品的價(jià)格遠(yuǎn)高于處理器本身。因此,和沒(méi)有外部加速器的系統(tǒng)相比,Ncore將帶來(lái)數(shù)字為0的額外支出和至少5倍的DLA性能。不僅如此,Centaur公司還在進(jìn)一步優(yōu)化這款處理器的DLA性能,比如它在測(cè)試芯片收到后一個(gè)月就發(fā)布了新的MLPerf測(cè)試結(jié)果,顯示了進(jìn)一步的性能提升。因此在最終上市時(shí),Centaur處理器的DLA性能還可能進(jìn)一步提高。

    從架構(gòu)上來(lái)說(shuō),SIMD的設(shè)計(jì)即使是采用了Ncore這樣的超寬寬度,也不太可能和市場(chǎng)上的Spring Hill這類(lèi)經(jīng)過(guò)充分優(yōu)化、采用MAC陣列的處理器具有相匹配的每瓦特性能。但是集成的DLA單元可以大大降低成本,這將有助于Centaur處理器實(shí)現(xiàn)它的目的。另外,SIMD的架構(gòu)設(shè)計(jì)也比MAC架構(gòu)更為靈活,即使使用早期的軟件,Centaur公司依舊在SSD(此處指的是single-shot detection即單次檢測(cè),不是固態(tài)硬盤(pán))以及GNMT(Google NeuralMachine Translation谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng))這樣的測(cè)試模型中獲得了可觀的分?jǐn)?shù)。在這種應(yīng)用中,英特爾甚至都沒(méi)有發(fā)布NNP-I處理器的性能分?jǐn)?shù)。因此,Ncore在多樣化的神經(jīng)網(wǎng)絡(luò)應(yīng)用中將擁有和CPU、GPU-樣靈活而寬泛的應(yīng)用范圍。

    Centaur處理器的弱點(diǎn)依舊是其CPU部分。在那些對(duì)CPU性能有要求的負(fù)載的性能結(jié)果上,Centaur處理器可能會(huì)低于Xeon Sliver處理器,主要是缺少多線(xiàn)程功能。對(duì)于單線(xiàn)程,其性能可能會(huì)接近Skylake處理器的IPC,但是在某些測(cè)試中會(huì)有差異。Centaur處理器在內(nèi)核數(shù)量、內(nèi)存通道、PCle帶寬方面和低端的Xeon處理器相似,集成南橋也是一個(gè)加分項(xiàng)目。Centaur處理器的這種新設(shè)計(jì)非常適合邊緣服務(wù)器,這意味著用于網(wǎng)絡(luò)邊緣(比如5G基站)或者客戶(hù)駐地(比如工廠和商店)。這些系統(tǒng)必須體積小且成本低,因此高集成度的處理器優(yōu)勢(shì)很明顯。

    從市場(chǎng)情況來(lái)看,盡管英特爾已經(jīng)做出了巨大的努力,但是單憑x86處理器并不是解決所有問(wèn)題的最佳方案。目前,許多處理器都包含了圖形處理器GPU、視頻加速器VPU、數(shù)字信號(hào)處理器DSP或者其他專(zhuān)用體系結(jié)構(gòu),它們可以提高性能或者減少常見(jiàn)工作負(fù)載。隨著神經(jīng)網(wǎng)絡(luò)計(jì)算變得越來(lái)越普遍,添加DLA這類(lèi)專(zhuān)用處理器也提供了類(lèi)似的優(yōu)勢(shì)。這樣的協(xié)處理器目前已經(jīng)在ARM架構(gòu)的移動(dòng)處理器中變得非常常見(jiàn),但是英特爾和AMD還尚未在其PC和服務(wù)器處理器中加入DLA。通過(guò)發(fā)布首款集成AI加速器的x86處理器,Centaur公司和威盛現(xiàn)在站在了市場(chǎng)引領(lǐng)者的位置上。

    猜你喜歡
    威盛寄存器英特爾
    Lite寄存器模型的設(shè)計(jì)與實(shí)現(xiàn)
    英特爾攜手一汽集團(tuán),引領(lǐng)汽車(chē)行業(yè)全新變革
    英特爾擴(kuò)充FPGA可編程加速卡產(chǎn)品組合
    分簇結(jié)構(gòu)向量寄存器分配策略研究*
    外資力薦高通并購(gòu)賽靈思對(duì)抗英特爾
    電子世界(2015年22期)2015-12-29 02:49:41
    好平板有強(qiáng)芯 英特爾Bay Trail芯片解析
    高速數(shù)模轉(zhuǎn)換器AD9779/AD9788的應(yīng)用
    一種可重構(gòu)線(xiàn)性反饋移位寄存器設(shè)計(jì)
    威盛的上網(wǎng)本轉(zhuǎn)機(jī)
    徐滔:威盛中國(guó)引航十年
    上虞市| 延津县| 深水埗区| 山阴县| 永清县| 清新县| 桑日县| 巴东县| 宜城市| 仲巴县| 铁岭县| 蓬溪县| 布尔津县| 普兰店市| 长汀县| 大邑县| 丰原市| 武邑县| 平定县| 如东县| 修武县| 华安县| 新乡县| 加查县| 米脂县| 河北省| 香河县| 枣阳市| 和田市| 靖远县| 仁布县| 静海县| 珲春市| 娱乐| 昆明市| 南漳县| 吉木乃县| 尚义县| 广河县| 丰原市| 疏勒县|