張平
英偉達(dá)于2021年4月13日召開了GTC 2021大會(huì)。在會(huì)議上,英偉達(dá)CEO黃仁勛代表英偉達(dá)對(duì)計(jì)算市場(chǎng)的發(fā)展提出了一些看法并進(jìn)行了展望,同時(shí)也發(fā)布了全新的DPU、CPU、下一代GPU以及自動(dòng)駕駛芯片。本期我們將對(duì)GTC 2021會(huì)議中的要點(diǎn)進(jìn)行解讀,并帶來部分英偉達(dá)下一代計(jì)算產(chǎn)品的解析。
GTC在早期是英偉達(dá)發(fā)布新品、宣布相關(guān)合作或產(chǎn)業(yè)信息的大會(huì),會(huì)上往往會(huì)有新一代GPU和相關(guān)技術(shù)的發(fā)布,是游戲玩家一年一度的盛會(huì)。不過,隨著英偉達(dá)產(chǎn)業(yè)布局越來越廣產(chǎn)品越來越多, GTC逐漸轉(zhuǎn)變成了面向所有用戶包括游戲玩家、行業(yè)用戶、特殊領(lǐng)域用戶以及技術(shù)專家,有關(guān)英偉達(dá)技術(shù)、產(chǎn)品、產(chǎn)業(yè)生態(tài)等內(nèi)容的綜合性大會(huì)。在2021年的GTC上,英偉達(dá)CEO黃仁勛介紹了大量與計(jì)算相關(guān)的產(chǎn)品,包括全新的DPU、CPU、下一代GPU以及自動(dòng)駕駛芯片。下面,本文帶大家一起對(duì)GTC 2021上發(fā)布的新品進(jìn)行深入解讀。
綜述:英偉達(dá)的四個(gè)新技術(shù)方向
目前英偉達(dá)的產(chǎn)業(yè)發(fā)展方向主要針對(duì)五大板塊,分別是計(jì)算加速、AI自生成軟件(AI編程)、數(shù)據(jù)中心、AI和5G應(yīng)用以及在現(xiàn)實(shí)世界或者虛擬世界中的自動(dòng)化系統(tǒng)等。
會(huì)上,英偉達(dá)著重提到了一個(gè)名為“Metaverse”的概念,其中文含義被稱為“元宇宙”。所謂元宇宙,實(shí)際上是一個(gè)來源于科幻小說的概念,其本質(zhì)是使用數(shù)據(jù)化來構(gòu)造一個(gè)持久、同步、實(shí)時(shí)、閉環(huán)、跨越數(shù)字和物理、跨越私有和公有、跨越開放和封閉、擁有“臨場(chǎng)感”、可以由個(gè)體創(chuàng)造內(nèi)容和數(shù)據(jù)的虛擬宇宙。之所以說它是“Meta(希臘語“超越”)+verse”,是因?yàn)镸etaverse并不是一個(gè)虛擬世界、虛擬空間或者虛擬現(xiàn)實(shí),也不是一個(gè)所謂簡單的虛擬游戲,英偉達(dá)認(rèn)為的Metaverse是一個(gè)和我們現(xiàn)在的時(shí)空完全相同的虛擬“時(shí)空”。英偉達(dá)的所有技術(shù),,都和Metaverse相關(guān),一個(gè)Metaverse的存在,也會(huì)促進(jìn)英偉達(dá)提到的所有技術(shù)的發(fā)展和應(yīng)用。
現(xiàn)在,基于Metaverse的愿景和英偉達(dá)所提出的五大板塊,英偉達(dá)給出了四個(gè)新技術(shù)方向和基于這些技術(shù)的應(yīng)用。這四個(gè)新技術(shù)應(yīng)用方向分別是RTX(Omniverse)、DGX (以及相關(guān)的Grace CPU、BlueField DPU、DOCA SDK)、EGX和5G技術(shù)、自動(dòng)駕駛芯片(Hyperion、Atlan、Orin)。在此基礎(chǔ)上,英偉達(dá)還給出了這四個(gè)技術(shù)方向的應(yīng)用領(lǐng)域,分別是RTX針對(duì)Omniverse和Isaac, DGX十對(duì)Megatron(大規(guī)模語言模型)、藥物發(fā)現(xiàn)以及量子計(jì)算機(jī),EGX和5G針對(duì)AI、Merlin(AI應(yīng)用框架)、Maxine (視頻會(huì)議平臺(tái))、Jarvis (對(duì)話式人工智能的框架平臺(tái))以及Morpheus (利用AI的網(wǎng)絡(luò)安全技術(shù)框架),最后的自動(dòng)駕駛芯片自然對(duì)應(yīng)的是自動(dòng)駕駛技術(shù)。
這四大技術(shù)是英偉達(dá)在GTC上重點(diǎn)介紹的發(fā)展方向,包括CPU、GPU、DPU等多款產(chǎn)品都?xì)w類在這四大技術(shù)和五大板塊中。
英偉達(dá)的數(shù)字孿生宇宙:Omniverse
熟悉英偉達(dá)發(fā)展歷史的讀者肯定知道,英偉達(dá)起家的根本是圖形計(jì)算,其技術(shù)基礎(chǔ)是計(jì)算機(jī)圖形學(xué)。計(jì)算機(jī)圖形學(xué)的核心是模擬,它使用數(shù)學(xué)和計(jì)算機(jī)科學(xué)模擬了材質(zhì)和光線的交互,模擬物體、粒子和波的特性,現(xiàn)在已經(jīng)開始模擬智能和物理。當(dāng)然,這樣的模擬已經(jīng)被英偉達(dá)做到了極致,模擬也僅僅基于一個(gè)或者數(shù)個(gè)物理定律或者規(guī)則。下一步,英偉達(dá)計(jì)劃將這些規(guī)則組合起來,結(jié)合Metaverse概念,實(shí)現(xiàn)自己的“元宇宙”計(jì)劃,這個(gè)計(jì)劃在GTC大會(huì)上被正式發(fā)布,這就是Omniverse。
更進(jìn)一步來看的話, Omniverse是這樣一個(gè)平臺(tái):它通過各種技術(shù)和標(biāo)準(zhǔn)化的軟件,搭建了一個(gè)數(shù)字孿生宇宙。理論上來說,只要技術(shù)足夠先進(jìn),算力足夠充足,你可以通過Omniverse中英偉達(dá)或者其他使用者開發(fā)的接口、軟件、庫文件等,在Omniverse內(nèi)部模擬一個(gè)村落、工廠、社區(qū)、城市或者國家,甚至整個(gè)地球。當(dāng)然,受制于現(xiàn)在的技術(shù)和應(yīng)用場(chǎng)景,當(dāng)前Omniverse更偏重面向工業(yè)行業(yè)的元宇宙。
當(dāng)然,模擬某個(gè)具體的物體或者群體并不是Omniverse的目的,通過這些模擬,來實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界的數(shù)字化孿生,并通過相關(guān)處理和操作,來獲得在現(xiàn)實(shí)世界中難以得到的數(shù)據(jù)和內(nèi)容,才是Omniverse最核心的作用。
英偉達(dá)舉了一個(gè)很好理解的例子來描述Omniverse的作用。我們知道,目前智能機(jī)器人的發(fā)展如火如荼。在現(xiàn)實(shí)世界中,人們可以通過前期的數(shù)學(xué)計(jì)算、算法模擬或者各種各樣的手段為機(jī)器人設(shè)計(jì)相關(guān)運(yùn)動(dòng)程序,然后制造出一個(gè)真實(shí)存在的機(jī)器人,并將其放置在真實(shí)世界中進(jìn)行測(cè)試,從而獲得反饋信息,再進(jìn)一步去調(diào)節(jié)機(jī)器人的設(shè)計(jì),從而獲得最終可以商業(yè)化,并交付給用戶的產(chǎn)品。
但是,這樣的測(cè)試過程存在兩個(gè)問題,一是耗資巨大,二是速度很慢。為了在真實(shí)世界中進(jìn)行這樣的測(cè)試,人們不得不先造出一大堆測(cè)試產(chǎn)品,測(cè)試速度受到真實(shí)世界的物理規(guī)則的約束,比如時(shí)間、空間、能源以及人類自身的精力等。那么,解決這個(gè)問題的最終辦法是什么?并不是花更多的錢,也不是雇傭更多的工程師,而是直接將整個(gè)過程虛擬化、數(shù)字化后,在數(shù)字世界中進(jìn)行測(cè)試、反饋和修改,這就是Omniverse的作用。
在Omniverse中,用戶可以建立一個(gè)到數(shù)個(gè)、數(shù)千個(gè)和現(xiàn)實(shí)世界中運(yùn)行參數(shù)、狀態(tài)幾乎一樣的機(jī)器人。在合理的約束條件下,搭建相關(guān)測(cè)試場(chǎng)景,讓模擬的機(jī)器人在虛擬的測(cè)試場(chǎng)景中進(jìn)行測(cè)試,并利用AI的“測(cè)試—反饋—改進(jìn)”機(jī)制,實(shí)現(xiàn)機(jī)器人的自學(xué)習(xí)、自測(cè)試和自提升。其中,搭建的虛擬測(cè)試場(chǎng)景可以和真實(shí)世界的某處測(cè)試場(chǎng)完全-樣,并且遵循完全一樣的物理定律。場(chǎng)景設(shè)置不僅僅局限在地球上,也可以在月球、火星甚至太空中,畢竟人類已經(jīng)基本掌握了這些場(chǎng)景下的物理參數(shù),這種虛擬的測(cè)試場(chǎng)景就成為真實(shí)測(cè)試場(chǎng)景的“數(shù)字孿生”。最終測(cè)試的結(jié)果可以反饋到工程師手中,然后進(jìn)一步用于真實(shí)場(chǎng)景中機(jī)器人的改進(jìn),完成了“真實(shí)場(chǎng)景—數(shù)字孿生場(chǎng)景—真實(shí)場(chǎng)景”的閉環(huán),這充分體現(xiàn)出了Omniverse的價(jià)值。
在GTC上,英偉達(dá)介紹了Omniverse的三大重要部分。首先是Omniverse Nucleus,顧名思義,這個(gè)部分是Omniverse的核心,用于連接用戶并實(shí)現(xiàn)3D資產(chǎn)交換和場(chǎng)景描述的引擎。其次是有關(guān)合成、渲染和動(dòng)畫的引擎,英偉達(dá)為這部分內(nèi)容加入了包括PhysX物理模擬、NVIDIA MDL材質(zhì)模擬和NVIDIA AI等功能,使其可以更好地模擬真實(shí)世界。此外英偉達(dá)還通過這個(gè)部分將Omniverse擴(kuò)展至多GPU、云計(jì)算平臺(tái),使得Omniverse可以在各種RTX平臺(tái)上進(jìn)行操作,并提供遠(yuǎn)程流式傳輸功能等。第三個(gè)部分被稱為CloudXR,它被英偉達(dá)稱之為“星際之門”,通過這個(gè)部分,人們可以利用VR將內(nèi)容傳輸至Omniverse, AI可以使用AR將內(nèi)容從Omniverse內(nèi)傳輸出去,這相當(dāng)于Omniverse和現(xiàn)實(shí)世界的接口。
除了上述三大部分外, Omniverse的重要內(nèi)容還包括Omniverse Connect庫和Omniverse Kit。其中OmniverseConnect庫可以使得Omniverse Nucleus連接應(yīng)用程序并且發(fā)布和訂閱整個(gè)Omniverse內(nèi)的資產(chǎn),并執(zhí)行更新程序等。Omniverse Kit則是構(gòu)建本地Omniverse應(yīng)用程序和微服務(wù)的工具包,也可以支持獨(dú)立擴(kuò)展,支持Python或者C++等。
在最重要的3D文件格式方面,Omniverse采用了皮克斯動(dòng)畫提供的USD (Universal Scene Description)格式來實(shí)現(xiàn)3D內(nèi)容的標(biāo)準(zhǔn)化和統(tǒng)一化。USD格式是皮克斯動(dòng)畫公司發(fā)明的一種標(biāo)準(zhǔn)化通用場(chǎng)景描述格式。利用USD,人們可以實(shí)現(xiàn)3D場(chǎng)景的標(biāo)準(zhǔn)化并確保移植和交互的可靠性。USD在2016年成為開源標(biāo)準(zhǔn)后,英偉達(dá)對(duì)其進(jìn)行了不少改進(jìn),比如將其和整個(gè)Omniverse系統(tǒng)結(jié)合起來,為其增加了協(xié)同工作、實(shí)時(shí)預(yù)覽、資源共享等相關(guān)功能,并結(jié)合建筑、制造、模擬等相關(guān)產(chǎn)業(yè)的特點(diǎn)進(jìn)行了一些改進(jìn)。
英偉達(dá)在發(fā)布會(huì)上展示了Omniverse的大量實(shí)際用途。比如借助Omniverse的同步功能,福斯特建筑師事務(wù)所實(shí)現(xiàn)了全球17個(gè)辦公地點(diǎn)的設(shè)計(jì)協(xié)同。ILM借助Omniverse實(shí)現(xiàn)了工作管線的匯聚和統(tǒng)一。愛立信利用Omniverse進(jìn)行了5G傳輸和干擾模擬測(cè)試等工作。
一家名為TwinEarth的公司計(jì)劃使用Omniverse和2萬個(gè)GPU打造一個(gè)地球的數(shù)字李生體。著名的游戲公司動(dòng)視暴雪計(jì)劃將10萬多3D資產(chǎn)全部使用Omniverse整理并建立一個(gè)可搜索的數(shù)據(jù)庫。全球著名的基礎(chǔ)設(shè)施建設(shè)公司Bently (這家公司相關(guān)的產(chǎn)業(yè)總產(chǎn)值接近每年3.5萬億美元)結(jié)合Omniverse,建造了一個(gè)名為iTwin的基礎(chǔ)設(shè)施數(shù)字孿生,用于在整個(gè)建筑的生命周期內(nèi)監(jiān)控和優(yōu)化性能。另外,在一些特色產(chǎn)品方面,比如廣告制作,相關(guān)制作人員不用再走遍全球進(jìn)行廣告拍攝和制作,借助于Omniverse的特性,人們可以搭建虛擬場(chǎng)景并進(jìn)行虛擬拍攝,并且全球的藝術(shù)家都可以通過Omniverse同步創(chuàng)意和制作過程。
除了上述用途外,英偉達(dá)還和寶馬聯(lián)手,實(shí)現(xiàn)了利用Omniverse對(duì)寶馬的汽車制造工廠進(jìn)行數(shù)字孿生。在Omniverse的數(shù)字工廠中,寶馬實(shí)現(xiàn)了對(duì)工廠的全流程模擬,通過全球不同地區(qū)的專家的協(xié)同工作,對(duì)工廠流水線相關(guān)的機(jī)臺(tái)、物流、動(dòng)線等進(jìn)行優(yōu)化,還改善了整個(gè)工廠的人體工學(xué)設(shè)計(jì)和效率。此外,借助于Omniverse中整合的NVIDIA Isaac機(jī)器人協(xié)作平臺(tái),寶馬準(zhǔn)備了物流智能機(jī)器人,且借助域隨機(jī)化實(shí)現(xiàn)了機(jī)器人的自我學(xué)習(xí)和進(jìn)化以及人類的遠(yuǎn)程控制等功能?,F(xiàn)在,寶馬已經(jīng)將全球31個(gè)工廠在Omniverse中進(jìn)行數(shù)字孿生,寶馬宣稱,通過縮短規(guī)劃時(shí)間、提高精度和靈活性,最終寶馬還可以將規(guī)劃流程效率提升30%。
在整個(gè)Omniverse的生態(tài)圈和產(chǎn)業(yè)鏈方面,英偉達(dá)宣布目前已經(jīng)提供了12個(gè)和Omniverse有關(guān)的主流設(shè)計(jì)工具連接器,此外還有40個(gè)正在開發(fā)過程中。目前全球已經(jīng)有大量企業(yè)加入Omniverse平臺(tái),來自游戲、媒體、娛樂、ACE、電信、基礎(chǔ)設(shè)施、汽車等不同的行業(yè)。Omniverse目前一方面提供經(jīng)由英偉達(dá)認(rèn)證的硬件設(shè)備,包括臺(tái)式機(jī)、筆記本電腦和服務(wù)器,另一方面也面向企業(yè)開放相關(guān)認(rèn)證,最終實(shí)現(xiàn)軟硬協(xié)同發(fā)展的目標(biāo)。
從英偉達(dá)的介紹來看,Omniverse只是結(jié)合現(xiàn)有的一些模擬和應(yīng)用場(chǎng)景進(jìn)行了可視化的處理,雖然還處于早期發(fā)展階段,但是毫無疑問這種“元宇宙”的概念是非常震撼的。隨著技術(shù)和算力進(jìn)一步發(fā)展,未來Omniverse和類似的平臺(tái)可能擁有將整個(gè)社區(qū)、工廠、城市或者某些大型研究室整體數(shù)字化的能力。就像計(jì)算機(jī)從機(jī)械計(jì)算機(jī)進(jìn)步到電子計(jì)算機(jī),使得處理速度和效率提升了上億倍那樣,Omniverse將真實(shí)世界數(shù)字化,可以帶來不亞于機(jī)械計(jì)算機(jī)到電子計(jì)算機(jī)這樣巨大的效率提升。借助Omniverse和類似的元宇宙平臺(tái),虛擬和真實(shí)的邊界可能會(huì)逐漸被融化模糊,人類的生產(chǎn)力、想象力和研發(fā)能可能會(huì)借由此進(jìn)一步大幅度提升。如果一切順利的話,英偉達(dá)Omniverse在未來可能會(huì)成為PC上的一種基礎(chǔ)資源,那個(gè)時(shí)候英偉達(dá)的市值和技術(shù)實(shí)力,可能也不是現(xiàn)在的我們可以想象的了。
更強(qiáng)的專用計(jì)算單元:DPUBluefield-3
英偉達(dá)在之前花費(fèi)69億美元收購了一家來自以色列、專注高性能網(wǎng)絡(luò)和數(shù)據(jù)處理器的企業(yè),名為Mellanox。在收購這家企業(yè)之后,英偉達(dá)獲得了夢(mèng)寐以求的在大型服務(wù)器、超算、云計(jì)算設(shè)備中布置高性能網(wǎng)絡(luò)接口的能力,還獲得了在這些設(shè)備中進(jìn)行有關(guān)數(shù)據(jù)處理、安全處理、數(shù)據(jù)解析等工作的全新芯片DataProcessing Unit,也就是DPU,數(shù)據(jù)處理器。
在GTC 2021上,英偉達(dá)發(fā)布了全新DPU產(chǎn)品,并且進(jìn)一步解釋了為什么目前的服務(wù)器、云計(jì)算和超算設(shè)備更需要DPU。按英偉達(dá)的說法,目前AI計(jì)算和云計(jì)算使得數(shù)據(jù)中心處理數(shù)據(jù)的方式發(fā)生了變化。早期企業(yè)都在服務(wù)器上運(yùn)行單一的軟件包,此時(shí)CPU任務(wù)不重,甚至資源存在很多富裕和空閑。接下來,在虛擬化出現(xiàn)后,通過虛擬化設(shè)備,軟件任務(wù)可以遷移,并且各項(xiàng)任務(wù)包括計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和安全等都可以通過虛擬化遷移至CPU上,整個(gè)平臺(tái)環(huán)境變得更為方便,但這樣做也使得CPU增加了計(jì)算負(fù)載且降低了CPU運(yùn)行任務(wù)的能力,畢竟運(yùn)行任務(wù)才是CPU的主要工作。隨后,云計(jì)算進(jìn)一步將各種任務(wù)分解為各類微任務(wù),并且盡可能多地利用服務(wù)器的所有空閑資源。不過,隨著云計(jì)算、AI計(jì)算的發(fā)展,整個(gè)系統(tǒng)的安全形勢(shì)愈加嚴(yán)峻,在這種基礎(chǔ)上出現(xiàn)了“零信任”安全理念。這種理念的特點(diǎn)是不信任任何軟件,均給予其最小權(quán)限和最復(fù)雜驗(yàn)證,并且不再設(shè)置相關(guān)安全區(qū)域,應(yīng)用和資源的邊界就是安全邊界。零信任的安全理念使得整個(gè)服務(wù)器或者云計(jì)算中,有關(guān)安全驗(yàn)證的工作計(jì)算壓力大增,也就是基礎(chǔ)設(shè)施軟件處理成為了數(shù)據(jù)中心最大的計(jì)算任務(wù),這又使得CPU陷入極重的計(jì)算負(fù)荷中。
從目前的發(fā)展情況來看,零信任安全理念很可能成為未來發(fā)展的主流。因此, CPU繁重的安全驗(yàn)證任務(wù)和相關(guān)數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)移等任務(wù)就需要新的設(shè)備來接手。英偉達(dá)給出的解決方案正是DPU,這是一種高性能、軟件可編程、多核心的新型,可編程處理器。它的特點(diǎn)是擁有高性能網(wǎng)絡(luò)接口、并行處理大量數(shù)據(jù)的能力以及和CPU、GPU快速傳輸數(shù)據(jù)的能力。
在2020年,英偉達(dá)就推出過BlueField-2、BlueField-2X兩款DPU產(chǎn)品,以及新的DUCA SDK,后者用在BlueField DPU上開發(fā)有關(guān)軟件定義、硬件加速的網(wǎng)絡(luò)、安全和存儲(chǔ)應(yīng)用,包括深度數(shù)據(jù)包檢測(cè)、安全啟動(dòng)、TLS加密卸載、RegEX加速以及基于硬件的實(shí)時(shí)時(shí)鐘等,和DPU搭配可謂相得益彰。
在2021年的GTC上,英偉達(dá)發(fā)布了全新的BlueField-3,并給出了BIueField-4規(guī)模的展望。BlueField-3擁有220億晶體管,其中包含了16個(gè)Cortex-A78核心。網(wǎng)絡(luò)方面支持CONNECTX-7,其最高速度高達(dá)400Gbps,支持PCIe 5.0和DDR5內(nèi)存。其性能為SPECint測(cè)試數(shù)值為42,計(jì)算能力為1.5TOPS。相比之下,上代BlueField-2的SPECint測(cè)試數(shù)值為9,計(jì)算能力為0.7TOPS。英偉達(dá)還順便預(yù)告了下一代BlueField-4,其擁有640億晶體管, SPECint測(cè)試值高達(dá)160,計(jì)算能力超過1000TOPS,網(wǎng)絡(luò)帶寬進(jìn)一步翻倍至800Gbps。在上市時(shí)間上,BlueField-3大約會(huì)在2022年第一季度上市,英偉達(dá)沒有介紹其生產(chǎn)工藝,據(jù)推測(cè)應(yīng)該是采用5nm工藝進(jìn)行生產(chǎn)。BlueField-4則會(huì)在2023年發(fā)布,屆時(shí)生產(chǎn)工藝應(yīng)該更為出色了。
繼續(xù)來看BlueField-3。英偉達(dá)介紹到,其包含的16個(gè)ARM核心可以用來運(yùn)行整個(gè)虛擬化軟件棧,比如VMware ESX,這相當(dāng)于接替了一大部分CPU的工作。在安全特性方面,新的處理器可以支持解包或者加速IPSEC和TLS加密算法、密鑰管理等。有了這些特性和功能,CPU就可以極大地釋放計(jì)算壓力,能騰出更大的空間來運(yùn)行目標(biāo)應(yīng)用程序了。
在具體的應(yīng)用方面,英偉達(dá)使了自家的GeForce NOW服務(wù)進(jìn)行舉例。英偉達(dá)宣稱GeForce NOW是一個(gè)交付難度非常高的、面向消費(fèi)級(jí)用戶的游戲服務(wù),其需要關(guān)注的內(nèi)容非常多,包括了視覺質(zhì)量、幀率、流暢度、響應(yīng)時(shí)間、啟動(dòng)時(shí)間、成本以及安全性。在之前,它的幾乎所有任務(wù)都是交由CPU來執(zhí)行的,但是現(xiàn)在英偉達(dá)將基礎(chǔ)設(shè)施從游戲?qū)嵗羞M(jìn)行了分離,將加速網(wǎng)絡(luò)、存儲(chǔ)、安全等計(jì)算放置在BlueField DPU上執(zhí)行,極大地釋放了CPU的資源,使得CPU可以專注于更重要的、更關(guān)乎用戶體驗(yàn)的游戲計(jì)算等內(nèi)容。由于BlueField DPU的存在,一個(gè)GeForce NOW的服務(wù)器反而可以支持更多的用戶使用,這使得BlueField DPU擁有非常出色的投資回報(bào)率。
解決AI計(jì)算的帶寬之困:英偉達(dá)Grace CPU
英偉達(dá)做CPU或者相關(guān)的產(chǎn)品其實(shí)是早有歷史淵源的,之前英偉達(dá)就推出過ARM架構(gòu)的多款CPU或者SoC產(chǎn)品,比如Project Denver計(jì)劃和DenverCPU,其產(chǎn)品品牌為Tegra。后來由于戰(zhàn)略、市場(chǎng)等原因,英偉達(dá)在面向民用市場(chǎng)的SoC產(chǎn)品上持續(xù)收縮,目前Tegra只供應(yīng)部分游戲主機(jī)市場(chǎng),在消費(fèi)級(jí)市場(chǎng)難覓蹤影。
當(dāng)然,作為全球排名前列的集成電路企業(yè),不做不意味著沒有能力做。在GTC 2021上,英偉達(dá)宣布推出了全新的代號(hào)為“Grace”的CPU產(chǎn)品,采用下一代ARM的Neoverse架構(gòu),主要面向數(shù)據(jù)中心市場(chǎng)。本刊在上一期《GTC 2021, Grace CPU暴露英偉達(dá)的野心?》一文中,基于當(dāng)時(shí)的信息和資料,對(duì)這款CPU進(jìn)行了一定的分析,有興趣的讀者也可以翻看上期文章,在本文中我們將利用一些新的消息,并對(duì)Grace CPU進(jìn)行進(jìn)一步分析。
根據(jù)英偉達(dá)在GTC 2021上的解釋,他們面對(duì)的問題主要是帶寬,尤其是在目前體積巨大的AI計(jì)算模型或者框架面前,現(xiàn)有的CPU-GPU的PCIe架構(gòu)的帶寬是不可能滿足實(shí)際需求的。英偉達(dá)的數(shù)據(jù)是,PCIe在目前的情況下可以提供單向16GB/s的帶寬,在配置4路系統(tǒng)的情況下,也能夠提供64GB/s的帶寬。同樣的四路系統(tǒng),采用新的Grace CPU后,借助于CPU內(nèi)置的第四代NVLink,單個(gè)CPU連接GPU的數(shù)據(jù)帶寬可達(dá)到500GB/s,那么4路總計(jì)2000GB/s,是PCIe產(chǎn)品的30倍以上。
進(jìn)一步來看Grace CPU本身的話,在架構(gòu)方面英偉達(dá)只是說采用下一代ARM的Neoverse架構(gòu),但是并沒有明確給出相關(guān)的信息。另外,英偉達(dá)還提到,Grace的SPECint性能超過300分,一個(gè)DGX系統(tǒng)中有8個(gè)Grace CPU,總體性能超過2400分。
那么,Grace CPU究竟會(huì)采用ARM哪一款架構(gòu)、其性能究竟如何呢?
根據(jù)ARM官方介紹,Neoverse架構(gòu)分為高性能的V、高性能功耗比的N和低功耗的E三大系列,拋開E系列不看的話,現(xiàn)在ARM擁有兩款Neoverse架構(gòu)分別是Neoverse N1和Neoverse V1,其中前者和Cortex-A76有衍生關(guān)系,后者則和ARM目前力推的高性能核心Cortex-X1存在衍生關(guān)系??紤]到Grace CPU在2023年面世并且明確表示采用下一代Neoverse核心的話,Neoverse N1和Neoverse V1顯然都不在選擇之中。
好在ARM在前段時(shí)間發(fā)布了新的路線圖。2021年,ARM將推出5nm的Neoverse N2,相比Neoverse N1,Neoverse N2的IPC性能提升了40%,增加了SVE指令集,支持2×128b的浮點(diǎn)計(jì)算,并且還加入了對(duì)BF16格式的支持,接口方面提供了PCIe 5.0、DDR5、HBM3等,最多支持128核心和128線程。2022年以后,ARM還會(huì)推出新的Neoverse架構(gòu),性能進(jìn)一步提升30%,支持機(jī)器學(xué)習(xí)和矢量指令集,支持更大的核心密度等,新的核心將采用5nm或者3nm工藝制造,支持PCIe 5.0或者PCle 6.0,支持DDR5、HBM3等。
考慮到Grace CPU將在2023年才推出,因此這里的猜測(cè)就落在Neoverse N2和更遠(yuǎn)期的Neoverse架構(gòu)上了。英偉達(dá)給出的示意圖顯示,一個(gè)Grace CPU中擁有4個(gè)區(qū)域,每個(gè)區(qū)域有24個(gè)模塊,但是不知道最終有多少模塊被用作CPU核心,因此, Grace ;CPU的核心數(shù)量可能最多96個(gè),也可能遠(yuǎn)比這個(gè)數(shù)據(jù)要少。畢竟NeoverseN1的SPECint2006性能大約為37分,即使采用Neoverse N2,其性能應(yīng)該在45分以上。如果這里的測(cè)試標(biāo)準(zhǔn)是統(tǒng)一或者接近的話,這意味著英偉達(dá)的Grace CPU中Neoverse核心的數(shù)量遠(yuǎn)比示意圖中展示出來的模塊數(shù)量要少??紤]到目前AMD Zen 2架構(gòu)的EPYC處理器已經(jīng)能達(dá)到SPECint 300分以上的成績,在2023年新的工藝和架構(gòu)的支持下,要達(dá)到這樣的性能應(yīng)該更為容易,因此一個(gè)比較明顯的推測(cè)是,Grace CPU并不是面向性能的,而是耗費(fèi)了大量的晶體管在NVLink和其他互聯(lián)、數(shù)據(jù)傳輸?shù)裙δ苌?,畢竟這是英偉達(dá)需要解決的最根本的問題, GraceCPU和x86 CPU也并非生死抉擇的替代關(guān)系。
在性能方面,英偉達(dá)對(duì)Grace CPU加入自己的系統(tǒng)之后的情況做了一些預(yù)測(cè),英偉達(dá)稱Grace CPU的使用能夠大幅度降低神經(jīng)網(wǎng)絡(luò)模型計(jì)算所需要的時(shí)間,并且英偉達(dá)正在努力使得Grace CPU相關(guān)的系統(tǒng)在1萬億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)模型上實(shí)現(xiàn)相比目前系統(tǒng)10倍以上的性能,比如采用了64個(gè)Grace CPU+A100組合、且采用NVLink 4的設(shè)備,將使得類似模型的訓(xùn)練時(shí)間從1個(gè)月縮短至3天,或者在擁有8個(gè)Grace CPU+A100組合的(也就是單個(gè)DGX設(shè)備)設(shè)備中,使得擁有5000億個(gè)參數(shù)的模型可以實(shí)時(shí)獲得推斷結(jié)果。
目前Grace CPU系統(tǒng)的客戶已經(jīng)確定的包括瑞士國家計(jì)算中心的ALPS超級(jí)計(jì)算機(jī),這款設(shè)備在AI上的計(jì)算能力超過20EFLOPS。注意,這里的性能應(yīng)該指的是GPU的CUDA內(nèi)核、張量核心和CPU計(jì)算能力的組合。另外,這款超算并非只有Grace CPU一種處理器,在之前的消息中,惠普企業(yè)集團(tuán)宣布這款超算將采用自己的CrayEX架構(gòu),這意味著AMD的EYPC處理器也將是重要的組成部分。在這款超算建成后,將有可能成為全球AI計(jì)算得最快、效率最高的產(chǎn)品。另外一款超算也決定使用Grace CPU進(jìn)行搭建,但是消息不多,其主要客戶是美國能源部旗下的洛斯阿拉模式國家實(shí)驗(yàn)室,這個(gè)系統(tǒng)的主要目的是用于3D仿真,計(jì)劃于2023年交付。
英偉達(dá)的自動(dòng)駕駛計(jì)劃:ATLAN現(xiàn)身
英偉達(dá)在2019年的GTC上推出了DRIVE AGX Orin,當(dāng)時(shí)英偉達(dá)的計(jì)劃是在2022年正式銷售。在GTC 2021上,英偉達(dá)再次提到了Orin,并帶來了有關(guān)Orin的一些新的技術(shù)動(dòng)向。
現(xiàn)在, Orin并不只是用于L2以上級(jí)別的自動(dòng)駕駛了,它現(xiàn)在是整個(gè)汽車的中心計(jì)算機(jī),利用單個(gè)Orin芯片,英偉達(dá)實(shí)現(xiàn)了包括圖像處理集群、娛樂和多媒體中心、乘客交互、信心視圖等諸多功能。所謂信心視圖,是,英偉達(dá)提出的一個(gè)全新概念,它是指汽車通過探測(cè)周圍的環(huán)境和道路情況,將其數(shù)字化后反應(yīng)在車內(nèi)屏幕上,在實(shí)現(xiàn)自動(dòng)駕駛的同時(shí)還給予車內(nèi)人員以“信心”,因此被稱為“信心視圖"。換句話來說,所謂信心視圖,就是指自動(dòng)駕駛技術(shù)的可視化,車內(nèi)人員可以通過信心視圖和車周圍的情況做出對(duì)比,從而監(jiān)控現(xiàn)有的自動(dòng)駕駛執(zhí)行過程或者判斷汽車狀態(tài)和信息,英偉達(dá)還特別提到,未來的后視鏡將被數(shù)字化攝像頭所替代,人們不再需要車外的鏡面后視鏡就能觀察到車后信息。
在更深一層的技術(shù)層面上,英偉達(dá)通過軟件虛擬化,將Orin本身分為四個(gè)獨(dú)立的域,虛擬化之間是互相隔離的,采用了支持功能安全和信息安全的架構(gòu)設(shè)計(jì),這種設(shè)計(jì)在整個(gè)汽車的全周期都可以進(jìn)行升級(jí),同時(shí)提供精美的視覺圖像效果。軟件技術(shù)方面,配合即將大規(guī)模上市發(fā)售的Orin,英偉達(dá)帶來了第八代Hyperion系統(tǒng),這個(gè)系統(tǒng)的主要目的是提供一個(gè)統(tǒng)一的傳感器平臺(tái),幫助汽車廠商快速接入不同的傳感器設(shè)備并開始采集和使用數(shù)據(jù),再將其使用在自動(dòng)駕駛中。Hyperion系統(tǒng)的核心是2個(gè)Orin SoC,能夠?qū)崟r(shí)處理12個(gè)外部攝像頭、3個(gè)內(nèi)部攝像頭、9個(gè)雷達(dá)和2個(gè)激光雷達(dá)的數(shù)據(jù),從而實(shí)現(xiàn)汽車的L4級(jí)別自動(dòng)駕駛。另外,Hyperion還帶來了DRIVER AV和DRIVERIX所需要的所有工具,并且可以隨時(shí)記錄數(shù)據(jù)并進(jìn)行事件捕捉,從而使得自動(dòng)駕駛數(shù)據(jù)處理更為流程化。
根據(jù)英偉達(dá)在發(fā)布會(huì)上的描述,在2022年,應(yīng)該有很多配備了激光雷達(dá)和Orin自動(dòng)駕駛平臺(tái)的自動(dòng)駕駛汽車開始銷售,其合作伙伴包括國內(nèi)的造車新勢(shì)力蔚來、小鵬、理想智造、智己汽車等以及全球級(jí)別的梅賽德斯-奔馳、沃爾沃、現(xiàn)代、奧迪等諸多廠商。極有可能2022年到2023年將是高等級(jí)自動(dòng)駕駛的元年,我們可以小小地期待一下這個(gè)重要時(shí)刻的到來。
在Orin之后,GTC 2021也給出了發(fā)展方向,那就是算力超過1000TOPS的DRIVER Atlan,其SPECInt的性能大約100。英偉達(dá)給出了一個(gè)有關(guān)DRIVER Atlan的簡單的架構(gòu)示意圖,可以看出,Atlan和英偉達(dá)其他的一些設(shè)備具有很強(qiáng)的通用性,比如DPU、CPU和GPU。DRIVER Atlan在CPU部分采用的是Grace下一代產(chǎn)品,模糊的示意圖顯示大約有2個(gè)部分,每個(gè)部分有大概8個(gè)模塊。GPU部分則采用的是安培的下一代架構(gòu)產(chǎn)品,大概擁有12個(gè)計(jì)算模塊。此外, Bluefield DPU也被使用在DRIVER Atlan之內(nèi),應(yīng)該是用于接管安全和數(shù)據(jù)轉(zhuǎn)移等任務(wù),釋放CPU資源。其余的部分還包括內(nèi)存部分、內(nèi)存IO部分、高速IO單元、加速單元、安全單元以及功能安全模塊等。英偉達(dá)在DRIVER Atlan上還啟用了400Gbps的網(wǎng)絡(luò)連接,并達(dá)到了ASIL-D最高安全等級(jí)。
有關(guān)DRIVER Atlan的用途,英偉達(dá)表示2個(gè)Orin SoC實(shí)際上就可以在很大程度上實(shí)現(xiàn)高等級(jí)自動(dòng)駕駛了,但是在特殊條件下實(shí)現(xiàn)自動(dòng)駕駛的話,需要更高分辨率的攝像頭、雷達(dá)等傳感器以及更復(fù)雜的AI模型、更多的冗余和安全功能等。這些所有新增的功能都需要計(jì)算才能實(shí)現(xiàn),這也就是DRIVER Atlan繼續(xù)提升算力的基礎(chǔ)。并且英偉達(dá)還考慮到未來的應(yīng)用,包括汽車廠商一款汽車持續(xù)十余年的維護(hù)和使用。英偉達(dá)認(rèn)為未來的汽車并不再是一個(gè)汽車,而是一個(gè)平臺(tái),一個(gè)數(shù)字化的、可以安裝成千上萬軟件的平臺(tái),因此更強(qiáng)的性能是絕對(duì)必要的。
一個(gè)全棧計(jì)算巨無霸的誕生
GTC 2021上,英偉達(dá)CEO黃仁勛的演講時(shí)長其實(shí)并不長,只有一個(gè)半小時(shí)多一點(diǎn),但是其透露出來的信息是非常令人震撼的,本文只摘選了一部分改變整個(gè)產(chǎn)業(yè)界或者和硬件發(fā)展相關(guān)的內(nèi)容給予解讀,其中包括了元宇宙的概念和Omniverse的實(shí)現(xiàn)、DPU的用途和針對(duì)超算、云計(jì)算等場(chǎng)景的加速,以及Grace CPU突破AI計(jì)算帶寬的桎梏,還有全新的、可以實(shí)現(xiàn)L5級(jí)別自動(dòng)駕駛的DRIVER Atlan等,僅僅是這些內(nèi)容,就足以讓人感到震撼,更不要說整個(gè)GTC 2021演講中還有大量包括軟件、平臺(tái)和AI方面的內(nèi)容,著實(shí)精彩紛呈。我們推薦熱愛技術(shù)的玩家花費(fèi)一點(diǎn)時(shí)間去看看,除了了解新技術(shù)以外,說不定還對(duì)你的生活和人生有一點(diǎn)新的啟發(fā),觀看地址在英偉達(dá)中文官網(wǎng)就有,中文字幕,也比較好理解。
總的來看,英偉達(dá)通過最近數(shù)年的發(fā)展,已經(jīng)遠(yuǎn)遠(yuǎn)不是我們印象中那個(gè)只會(huì)造顯卡,順便做做A加速和自動(dòng)駕駛的企業(yè)了,英偉達(dá)開始越來越關(guān)注生態(tài)、軟件和底層,在擁有了GPU、DPU還是Omniverse,英偉達(dá)成為了業(yè)內(nèi)少有的擁有全棧計(jì)算能力的巨無霸,并且依舊在快速發(fā)展著。我們可以看到,目前無論是工業(yè)還是娛樂、無論是汽車還是醫(yī)藥、無論是線上還是線下,英偉達(dá)的解決方案總會(huì)讓你眼前一亮,甚至帶給人們一種超越現(xiàn)在時(shí)代的感覺,充滿未來感和科技感。
在本文的最后,我們還是要為Omniverse這樣的平臺(tái)叫好,它可能會(huì)改變?nèi)祟愐恢币詠慝@取數(shù)據(jù)和信息的方式,夸張一些說,Omniverse或者類似的平臺(tái),可能是推動(dòng)下一個(gè)人類科技大爆發(fā)時(shí)代的重要工具,就像鉆木取火、就像蒸汽機(jī)、就像電力一樣,引領(lǐng)人類走向下一個(gè)時(shí)代。