近日,一年一度的arm tech day在北京如期舉行。據(jù)Arm市場(chǎng)營(yíng)銷資深總監(jiān)Ian Smythe介紹,在過去一年里Arm發(fā)布了新的IP,公司希望在移動(dòng)產(chǎn)業(yè)不斷創(chuàng)新的同時(shí),能夠帶動(dòng)其他行業(yè)的發(fā)展,而且隨著人工智能時(shí)代的到來,人機(jī)交互方式將會(huì)發(fā)生極大轉(zhuǎn)變。從宏觀角度來看,未來的人機(jī)交互體驗(yàn)一定是無束縛、互聯(lián)、沉浸式的,要把虛擬世界帶入到現(xiàn)實(shí)世界中來?;谶@樣的愿景,近期Arm發(fā)布了Cortex-A76、Mali-G76和Mali-V76。
Arm計(jì)算產(chǎn)品事業(yè)部高級(jí)技術(shù)副總裁及研究員Peter Greenhalgh介紹,Cortex-A76是DynamIQ技術(shù)的CPU,雖然延用了與上一代產(chǎn)品相同的v8.2架構(gòu),但是其采用了全新的微處理器架構(gòu)。Cortex-A76從設(shè)計(jì)一開始就希望能達(dá)到極致性能與省電于一體的目的。與上一代產(chǎn)品Cortex-A75相比,Cortex-A76的性能提升30%,功耗降低40%,機(jī)器學(xué)習(xí)性能提高4倍。
Cortex-A76在微架構(gòu)上有幾方面的關(guān)鍵改進(jìn):
① 解耦合分支預(yù)測(cè)(Decoupled branch prediction)與指令預(yù)取(instruction fetch):設(shè)計(jì)在高帶寬下隱藏延遲,Cortex-A76前端順序取指組件每個(gè)周期能預(yù)取4~8個(gè)指令,并使用多層式分支目標(biāo)快取緩存以及混合式間接預(yù)測(cè)器來維持最高的處理量。
② 譯碼寬度更大:Cortex-A76是Arm首款采用4譯碼寬度核心,每周期處理指令的最大數(shù)量進(jìn)一步增加,每周期高達(dá)8個(gè)處理作業(yè)可分派到亂序執(zhí)行核心,支持更寬的空間與功耗優(yōu)化指令窗口。
③ 更高的整數(shù)與向量執(zhí)行處理量:四指令管線整數(shù)處理單元內(nèi)建于核心中,包含3個(gè)簡(jiǎn)單ALU以及1個(gè)多周期整數(shù)處理組件,此外,Cortex-A76支持雙指令管線原生式16B向量與浮點(diǎn)運(yùn)算單元,其處理量是所有先前世代Arm CPU的兩倍。
④ 強(qiáng)化內(nèi)存系統(tǒng):整個(gè)緩存架構(gòu)除了針對(duì)延遲與寬帶進(jìn)行協(xié)同優(yōu)化,還配備精密的第四代預(yù)取器以及深度內(nèi)存并行處理功能。
Peter表示,Cortex-A76在性能上取得如此巨大的突破,希望生態(tài)系統(tǒng)的合作伙伴可以get到其關(guān)鍵創(chuàng)新點(diǎn),通過實(shí)際產(chǎn)品的應(yīng)用來充分發(fā)揮出新架構(gòu)的優(yōu)勢(shì)。就目前分析來看,Cortex-A76可能會(huì)在VR頭戴設(shè)備上有所突破。
Arm資深產(chǎn)品經(jīng)理Espen介紹,Mali-G76是Arm推出的最新旗艦GPU,其采用Bifrost繪圖架構(gòu),大大提升了GPU的性能。與上一代產(chǎn)品相比,Mali-G76提升了30%的性能密度以及30%的能源效率,在機(jī)器學(xué)習(xí)能力方面是Mali-G72的2.7倍。
Mali-G76支持int8 dot,這對(duì)于機(jī)器學(xué)習(xí)的性能具有非常大的幫助,而且它還配備了雙材質(zhì)貼圖對(duì)映器(texture mapper),增加了數(shù)據(jù)吞吐量,處理量是Mali-G72的2倍,效率得到大幅提升。同時(shí),為了改進(jìn)性能密度與耗電,Arm還著手優(yōu)化緩存器,使用數(shù)量減半但容量較大的緩存器庫(kù)區(qū),以此來改進(jìn)空間與功耗效率。
取樣地址的可變預(yù)載一直是GPU的一個(gè)難題,因?yàn)榭勺兪讲逯颠\(yùn)算通常是在像素中心執(zhí)行,但一旦啟用取樣頻率著色功能,可變插值運(yùn)算就能在取樣地址執(zhí)行。編譯程序必須在指令內(nèi)對(duì)插值運(yùn)算地址進(jìn)行編碼,也必須輸出兩個(gè)不同的著色器變量,避免對(duì)是否能使用樣本-頻率著色產(chǎn)生混淆。在Cortex-G76中,這個(gè)問題得到了解決,其中配置了區(qū)塊深度緩沖區(qū)空間,以便進(jìn)行執(zhí)行深度預(yù)載。有了這一步驟,深度預(yù)載就能在算出法向片元之前完成,因此就能避免相依延遲的狀況,進(jìn)而提高了GPU在處理復(fù)雜內(nèi)容時(shí)的性能。
Arm中國(guó)區(qū)域市場(chǎng)經(jīng)理王田介紹,近期推出的高端視頻處理器Mali-V76能夠?yàn)楦叨酥悄苁謾C(jī)、數(shù)字電視以及其他設(shè)備提供包括8K在內(nèi)的下一代視覺體驗(yàn)。4K還未成為標(biāo)配,Arm已經(jīng)鎖定了8K市場(chǎng),因?yàn)锳rm作為IP供應(yīng)商,必須提前兩年甚至更早來應(yīng)對(duì)未來的需求。
8K60規(guī)格串流需要的帶寬是4K60格式的4倍,為此Arm加入了額外的AXI總線,使得處理量增加了一倍,另外還把整個(gè)視頻流水線的行緩沖區(qū)從4096個(gè)像素增加到8192個(gè)。行緩沖區(qū)用來存放一整行像素的數(shù)據(jù),因此一條8K畫面的行,其長(zhǎng)度會(huì)是4K畫面的行的2倍,從而帶來額外的效能提升。
受益于Arm具有固件和硬件無縫整合的優(yōu)勢(shì),隨著Arm不斷更新固件,Mali-V76的編碼質(zhì)量比Mali-V61躍升了25%。對(duì)于眨眼會(huì)造成畫面不連貫的情況,Cortex-V76也能解決,通過在其內(nèi)部建立一個(gè)連接通路,來消除許多微不足道的視覺瑕疵,提升視覺質(zhì)量,所有精彩瞬間都可以捕捉到!