張平
2020年6月24日凌晨,英偉達CEO黃仁勛和梅賽德斯-奔馳全球總裁康林松一起宣布,兩家公司將共同研究“軟件定義的車輛”,并且奔馳將從下一代汽車開始全面引入英偉達的DRIVE AGX Orin自動駕駛平臺。實際上在五天前,奔馳母公司戴姆勒宣布和寶馬公司停止了在自動駕駛上的合作。英偉達的DRIVE AGX Orin到底有怎么樣的魔力能夠引得奔馳“背友”呢?其核心的Orin SoC在技術(shù)上究竟有何特別之處?
十二年磨一劍的Orin
英偉達在大約十二年前邁入SoC設(shè)計領(lǐng)域,并通過自行設(shè)計SoC切入移動計算市場,試圖開拓全新的利潤空間,但由于缺失無線通信技術(shù),最終鎩羽而歸。在放棄了移動計算市場之后,英偉達又嘗試進入游戲主機、平板電腦、專業(yè)設(shè)備等領(lǐng)域,并取得了一些成績。當然,這些領(lǐng)域并不能和逐漸興起的A I計算和自動駕駛領(lǐng)域相提并論。要知道任何公司一旦在自動駕駛市場占據(jù)了先機,這個無比龐大的藍海市場將帶給這家公司難以想象的財富。
因此,英偉達在自動駕駛芯片上可謂全情投入,推出了全新的包含獨立設(shè)計SoC的DRIVE系列硬件和相關(guān)軟件,并積極在汽車上開始自動駕駛測試。回顧歷史,2015年英偉達就借助Te g ra芯片試水了汽車市場,推出了DRIVE PX。隨后英偉達開始一年一升級,2016年發(fā)布DRIVE PX2,2017年推出了DRIVE PX Parker,并開始采用漫畫中的超級英雄為產(chǎn)品命名。2018年,英偉達CEO黃仁勛在GTC 2018上宣布了英偉達DRIVE系列產(chǎn)品路線圖。在這個路線圖上,人們看到了英偉達在自動駕駛產(chǎn)品迭代和性能方面的一些設(shè)想,英偉達也順勢發(fā)布了同樣采用超級英雄命名的新一代產(chǎn)品,也就是DRIVE Xavier和Xavier SoC。今天,我們已經(jīng)可以在部分汽車上看到DRIVEXavi er的身影,比如國內(nèi)新能源汽車品牌小鵬推出的P7。根據(jù)英偉達展示的路線圖,接下來的產(chǎn)品被稱作Orin,它在2019年的英偉達GTC China上正式公布,被稱為DRIVER AGX Orin自動駕駛平臺,使用的SoC名為Ori n。實際產(chǎn)品會在2022年為汽車制造商完全準備就緒,Orin也是前文奔馳所選擇的自動駕駛芯片。
Cortex-A78和安培GPU現(xiàn)身:170億晶體管
由于本次發(fā)布英偉達只給出了Orin SoC的概要參數(shù),并沒有公布架構(gòu)設(shè)計方面的詳細內(nèi)容。因此本文也只會針對英偉達目前給出的相關(guān)資料進行解讀。
從規(guī)模上來看,Orin擁有170億晶體管,是上代Xavier的2倍??紤]到汽車上自動駕駛計算對數(shù)據(jù)吞吐能力和計算延遲要求極高,因此O ri n現(xiàn)有的規(guī)??赡苤皇钱斍肮に嚽闆r下的妥協(xié),可以肯定的是,未來面向自動駕駛的SoC規(guī)模還會進一步擴大。在工藝方面,英偉達一開始對Orin SoC采用的工藝和代工情況都閉口不談,但最終宣布Orin SoC將交由三星代工,使用三星的8nm LPP工藝制造。相比之下,圖靈架構(gòu)的TU102 GPU擁有186億個晶體管,但是面積高達754mm2。從這個角度來看,Ori n的芯片規(guī)??氨萒U102這樣的巨無霸產(chǎn)品。
在架構(gòu)設(shè)計上,O r i n S o C采用的是ARM Hercules CPU內(nèi)核搭配“下一代”GPU架構(gòu),也就是之前本刊介紹過的Cortex-A78。在2019年發(fā)布會的時候,英偉達尚未明確表示“下一代”GPU架構(gòu)是什么,當然現(xiàn)在大家都清楚了,Orin SoC使用的正是安培架構(gòu)的GPU。也就是說,Orin SoC采用的是目前最先進的Cor tex-A78CPU架構(gòu)搭配安培架構(gòu)的GPU,更具體一些的話,Orin SoC采用了12核的Cortex-A78處理器,搭配安培架構(gòu)的GPU后,總體計算能力可以達到INT8200TOPS,相比前代的Xavier的INT830TOPS,大約提升了7倍之多。
這里需要提到的一點是,在之前的SoC產(chǎn)品中,英偉達都傾向采用自研的CPU核心。比如初代DRIVE平臺使用的Pa r ke r S o C,采用的是2 個英偉達“丹佛”核心搭配4 個Cortex-A57。接下來的Xavier則采用的是8個英偉達自研的“Carmel”核心。但是在Orin SoC上,英偉達放棄了自研核心方案,采用了A R M提供的Cortex-A78核心,后續(xù)最多進行小改動和針對性優(yōu)化。這一點和目前市場上其他廠商的選擇幾乎驚人的一致。比如高通之前都會采用自研CPU核心或者半定制核心,但是在近幾代SoC產(chǎn)品中都逐漸偏向采用ARM公版方案,三星也基本放棄了自研的“貓鼬”架構(gòu)轉(zhuǎn)而采用公版方案。這些“殊途同歸”的現(xiàn)象在很大程度上顯示,現(xiàn)有的技術(shù)條件下繼續(xù)選擇自研ARM高性能處理器架構(gòu)(或者處理器核心)已經(jīng)很不劃算了,其研發(fā)投入和技術(shù)難度已經(jīng)大到迫使英偉達這類在高性能核心研發(fā)上尚算頗有積累的企業(yè)放棄之前的設(shè)計思想和成果。這樣一來,ARM架構(gòu)的高性能SoC在同質(zhì)化問題上就顯得頗為突出了。不過另一面則是英偉達可以將更多的資源放在GPU研發(fā)上,而不是市場相對較為小眾的CPU架構(gòu)設(shè)計。值得一提的是,最新消息顯示英偉達正在和控股A R M的軟銀接觸以求徹底收購ARM,一旦英偉達完成收購,未來在ARM架構(gòu)高性能CPU設(shè)計上,英偉達將占有顯著的優(yōu)勢。
繼續(xù)來說CPU架構(gòu),本刊在之前的文章中曾介紹過Cortex-A78,簡單來說,這款處理器架構(gòu)是A R M嚴格按照性能、功率和面積(也就是PPA)進行平衡設(shè)計的架構(gòu),其主要變化在于分支預測器翻倍,提高電源效率,加入了更多的指令融合內(nèi)容,重新優(yōu)化了寄存器設(shè)計,縮減了亂序執(zhí)行窗口,重新調(diào)整了指令調(diào)度設(shè)計,加入了新的AG U等,最終可以在5n m工藝的應(yīng)用和新架構(gòu)的改進下帶來相對前代產(chǎn)品在同功率范圍內(nèi)大約20%的性能提升。Orin SoC用上Cortex-A78后,考慮到英偉達集成了12個Cortex-A78核心并且Orin SoC工作的功率范圍設(shè)定會更為寬泛。因此有理由相信,Orin在面對汽車上更多道路信息的時候,憑借更大的功率空間和更高的頻率,能夠帶來更為出色的性能表現(xiàn)。
說完了CPU部分,再來看看GPU。Orin SoC使用的是全新安培架構(gòu)的GPU,其中值得關(guān)注的就是有關(guān)深度學習加速器也就是DLA的設(shè)計方案。我們知道安培架構(gòu)中具體實現(xiàn)是第三代張量核心和相關(guān)數(shù)據(jù)壓縮功能。根據(jù)英偉達的介紹,在配合相關(guān)稀疏性功能后,新的第三代張量核心在面對不同類型的計算時都帶來了極為出色的效能提升。比如新的架構(gòu)在計算擁有稀疏性的INT8數(shù)據(jù)時速度是之前架構(gòu)的20倍,在計算TF32這種新格式的數(shù)據(jù)時,在數(shù)據(jù)具有稀疏性的情況下同樣能達到之前處理器架構(gòu)的20倍。一般來說,自動駕駛使用的數(shù)據(jù)一般采用INT8格式,并且具有稀疏性,因此在安培架構(gòu)使用后,整體計算效能會得到顯著提升。不僅如此,英偉達目前在硬件單元設(shè)計上更偏向使用固定功能進行數(shù)據(jù)加速,這使得特定任務(wù)計算能夠擁有更為出色的性能功耗比,這也是SoC設(shè)計相當重要的目標之一。
另外,從英偉達給出的Orin SoC圖片可以看出,芯片左側(cè)布置了約10組安培GPU核心,右側(cè)則是12個CPU核心。其余部分還包括解碼單元、內(nèi)存控制器、緩存以及外部接口等。整體結(jié)構(gòu)還是頗為復雜的。
除了CPU和GPU外,英偉達還公布了一些Orin SoC的外圍數(shù)據(jù)。比如Orin SoC為車載設(shè)備和傳感器提供了4個10G bps的網(wǎng)絡(luò)接口,并且還支持H.265/HEVC/VP9格式的4K@60Hz視頻編碼或者8K@30H z視頻解碼。為了支持如此巨大的數(shù)據(jù)流量,Orin SoC的內(nèi)存帶寬被設(shè)定在200G B/s,采用LPDDR5規(guī)格和256bit內(nèi)存位寬。其中內(nèi)存部分的數(shù)據(jù)還有待證實,考慮到Orin SoC的上市時間,這樣的規(guī)格并不令人驚訝。安全特性方面,Orin SoC支持ISO 26262 ASIL-D安全標準。
3倍能耗比提升:OrinSoC的功耗和規(guī)模情況
英偉達目前沒有公布OrinSoC的功耗情況,只是簡單提及其性能是上代產(chǎn)品的7倍,能耗比則是上代產(chǎn)品的3倍。簡單計算可知,之前的Xavier的功耗為30W,INT8計算能力為30TOPS,那么其能耗比就是1TOPS/W。相比之下OrinSoC則是3TOPS/W,考慮其200TOPS的總性能,因此OrinSoC的功耗應(yīng)該大約在65W~70W左右。這個功耗相比現(xiàn)有的車規(guī)級SoC來說還是相當高的,但是考慮到OrinSoC的計算能力和英偉達推出了TDP為400W的GPU產(chǎn)品,OrinSoC的功耗又變得不那么難以接受了。
在具體產(chǎn)品實現(xiàn)方面,英偉達宣稱OrinSoC在不同配置下,可以滿足從L2級別到L5級別自動駕駛設(shè)備設(shè)計,并且暗示OrinSoC將是一個家族產(chǎn)品線,這意味著英偉達可能會推出不同功耗、性能定位的OrinSoC產(chǎn)品。根據(jù)現(xiàn)有的非官方資料來看,如果廠商只實現(xiàn)基本的L2級別的自動駕駛,那么可以采用簡化版本的OrinSoC搭配一顆攝像頭,其功耗只有15W,計算能力也降低至36TOPS,只需要一顆OrinSoC即可完成。如果是L2+級別的自動駕駛功能,則需要OrinSoC的中等功耗版本搭配4路攝像頭才能完成,此時OrinSoC的功耗被限制在40W,計算能力為100TOPS。繼續(xù)向上,如果要實現(xiàn)L3級別的自動駕駛,需要2顆OrinSoC,以130W的系統(tǒng)功耗實現(xiàn)400TOPS的算力才有希望。L5級別的自動駕駛則要求更高,2顆OrinSoC搭配2個安培GPU,能夠?qū)崿F(xiàn)2000TOPS的算力,功耗也上升至750W。顯然,L5級別的自動駕駛在目前的技術(shù)水平下尚不成熟,高達750W的功耗也是任何新能源汽車都難以承受的。
寫在最后
在最后總的來看,OrinSoC目前的資料顯示英偉達將繼續(xù)走在現(xiàn)有的道路上,依靠更新的工藝和更大規(guī)模的芯片來最終實現(xiàn)L5級別的自動駕駛。不過有一點值得關(guān)注,在之前發(fā)布DRIVEXavier時,一些數(shù)據(jù)顯示2顆XavierSoC搭配2個圖靈GPU,就能夠在320TOPS、460W的計算能力下實現(xiàn)L5級別自動駕駛。但是在新架構(gòu)發(fā)布后,英偉達將算力目標提升到了2000TOPS,同時功耗也大幅度提升。不過仔細對比之后依舊可以發(fā)現(xiàn),新的OrinSoC和相關(guān)平臺的每瓦特性能大幅度提升,并且更強的算力有助于設(shè)備在更短的時間內(nèi)完成計算判斷并給出最終的處理結(jié)果。畢竟在高速行車的途中,一些事故判斷時間只有大約1秒甚至更低,更強的計算能力能顯著縮短計算機判斷時間并帶來最佳的處置結(jié)果。當然,無論是OrinSoC還是之前的XavierSoC,在短期內(nèi)由于功耗等問題,都不可能徹底實現(xiàn)L5級別自動駕駛,其高昂的功耗阻礙了這些技術(shù)的普及。目前我們依舊在等待更新的技術(shù)來提升計算效率或者大幅度降低計算功耗,只有算力繼續(xù)在可控范圍內(nèi)增加,我們才有望迎來真正意義上的自動駕駛。