• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    超強圖形性能護航5G時代解析ARM Valhall GPU架構(gòu)及Mali-G77

    2019-01-15 04:22:04張平
    微型計算機 2019年15期
    關鍵詞:吞吐量引擎紋理

    張平

    ARM今年的新品不但有新的CPU架構(gòu),還有全新的GPU架構(gòu)。在今年的年度發(fā)布會上,ARM公布了全新的GPU架構(gòu),也帶來了全新的GPU型號Mali-G77。隨著移動產(chǎn)品的應用范圍和適應場景不斷擴大,ARM也在積極調(diào)整產(chǎn)品以滿足越來越大的計算量需求。VaIhall GPU架構(gòu)和Mali-G77就是為應對這樣的情況而生的。本文將帶來ARM這一新架構(gòu)的深入解讀。

    ARM上次發(fā)布新的GPu架構(gòu)還是在大約3年前。隨著近年來技術(shù)和應用的發(fā)展,ARM是時候推出全新架構(gòu)了這就是我們今天要談的“Valhall”架構(gòu)。從ARM給出的資料來看,VaIhall架構(gòu)在性能、密度和效率方面有著重大改進。雖然部分改進在去年的Mali-G76 1-就已經(jīng)出現(xiàn),但是架構(gòu)級別的全面改進,則在采用Valhall架構(gòu)的Mali-G77上才會全部顯現(xiàn)?;仡橞iforst

    ARM在移動GPU上的演進

    實話實說,ARM在移動GPU設計上的底蘊并不深厚,一個典型的例證就是ARM前幾代移動GPu無論是架構(gòu)還是產(chǎn)品的表現(xiàn)都不夠出色,這樣的情況—直持續(xù)到Biforst架構(gòu)出現(xiàn),但是Biforst架構(gòu)的前兩款產(chǎn)品依舊存在不少問題。

    首款Biforst架構(gòu)的GPU是Mali-G71,

    ARM Mali-G77正式發(fā)布

    它發(fā)布于2016年,華為海思旗下的麒麟960和三星Exynos 8895兩款SoC使用了這款GPU。當時人們對這款GPU報以非常高的期望,畢竟這是ARM在GPu架構(gòu)上做出的重大變化一Biforst是ARM首個標量GPU架構(gòu),徹底改變了之前的矢量GPu設計。在桌面GPu上,類似的改變這發(fā)生得比較早,包括英偉達在大約十年前推出的Tesla(GT200系列)架構(gòu)以及AMD在大約五年前推出的GcN架構(gòu),都是由矢量轉(zhuǎn)換為標量計算,基礎架構(gòu)的變化代表的是未來的發(fā)展方向。

    Biforst也做出了這樣的變化,但是Biforst架構(gòu)的產(chǎn)物Mali-G71和MaIi-G72表現(xiàn)并不出色,甚至對三星和華為的產(chǎn)品規(guī)劃帶來了負面影響,比如麒麟960和麒麟970在GPU性能方面的表現(xiàn)令人失望,尤其是面對來自高通驍龍的同代次產(chǎn)品時。好在ARM也看到了這樣的情況,在Biforst架構(gòu)的最后—次迭代也就是第三款產(chǎn)品上,解決了部分問題,帶來了性能的飛躍。Mali-G76的表現(xiàn)大大提升了,ARM GPU在消費者心中的地位,并且改善了Exynos9820和麒麟980的性能,使得這兩款SoC能夠更好地面對激烈的市場競爭。

    但是,Biforst架構(gòu)的迭代和Mali-G76的出現(xiàn),并不意味著ARM在移動GPu市場中的情況變得更好了。實際上,其競爭對手的進步速度更快。高通的Adreno移動GPu架構(gòu)—直以來都在引領著移動GPU的發(fā)展,盡管今年的Adreno 640并沒有取得令人印象深刻的性能改進,但是它的能效比、密度和絕對性能依舊領先ARM的相應產(chǎn)品。另外,蘋果全新A12 soc的GPu能效比表現(xiàn)更是相當出色,遠遠領先目前市面上的幾乎所有競爭對手,包括高通和ARM。移動soc市場的競爭激烈程度可見一斑。

    Valhall的全面進化

    Valhall在架構(gòu)層面帶來了全新的變化,包括新的IsA和計算核心設計這些設計可以解決Biforst的主要缺點,并目看起來它和其他移動GPu供應商的設計思路更為相似了。Valhall的第一次迭代產(chǎn)品就是Mali-G77,接下來本文將討論VaIhall架構(gòu)的設計和改進方向。

    根據(jù)ARM提供的數(shù)據(jù),MaIi-G77相比前代產(chǎn)品Mali-G76,其能效比提升30%,面積密度提升30%,機器學習性能提升60%。綜合性能增加40%。另外值得一提的是,由于下一代SoC在工藝上進步不大,因此其性能提升主要來自架構(gòu)設計,也就是Valhall和Mali-G77的架構(gòu)優(yōu)勢。

    深Avalhall架構(gòu)——全新設計的現(xiàn)代GPU架構(gòu)

    全新的Valhall架構(gòu)和前代產(chǎn)品存在顯著差異,雖然其架構(gòu)本質(zhì)依舊采用了標量涉及,但和Biforst異常狹窄的4寬和8寬度不同的是,Valhall的執(zhí)行核心架構(gòu)更類似于AMD和英偉達的桌面GPU產(chǎn)品。

    前代Biforst架構(gòu)的Mail-G71和MaIi-G72在核心執(zhí)行架構(gòu)上的設計比較緊湊,采用T4寬度的sIMD單元組成,其波前陣列(warp)寬度也為4。在Mali-G76上,ARM將波前陣列尺度提升至8,相比前代產(chǎn)品翻了一倍。所謂波前陣列寬度,是指處理器—次能夠吞吐多少數(shù)據(jù)。在計算中,數(shù)據(jù)的長度往往會根據(jù)實際計算而變化,可能是2、4、8、16等,邏輯控制單元需要拆分、合并一個或者多個計算數(shù)據(jù),并打包成波前陣列所需要的長度后,才會將數(shù)據(jù)導入波前陣列,等待進入計算單元。如果波前陣列設計得過寬,那么在面臨大量小數(shù)據(jù)計算并存在一定相關性時,可能無法完全填充G Pu核心,造成浪費。較小的波前陣列可以避免這個問題,在某些情況下能夠提高單元工作效率,但是在大量長度較長的數(shù)據(jù)來臨時,較小的波前陣列設計反而會成為計算瓶頸,邏輯控制單元需要不斷拆分數(shù)據(jù)以適應較小的波前陣列設計瓶頸將轉(zhuǎn)移至邏輯控制單元。此外,較小的波前陣列需要更多的邏輯控制單元才能滿足控制需求,更為耗費晶體管資源。

    以當時的眼光來看,移動GPU計算中并沒有太高的性能需求,在Biforst時代采用較窄的、4寬度的波前陣列設計能夠有效降低ALU上的空閑周期量,同時ARM希望以更多的邏輯控制單元來實現(xiàn)更好的ALu利用率。但是在數(shù)年后,這種設計顯得有些落伍。現(xiàn)在來看,移動游戲正在迅速地向更高的計算復雜程度邁進,大量Pc移植游戲的存在,以及移動游戲本身對Shader的要求日益提升,加上更多的多線程需求,都使得更寬的波前陣列設計逐漸成為主流。在這種情況下,新的VaIhall架構(gòu)順勢采用了16寬度的波前陣列。雖然相比英偉達和AMD的32寬和64寬,16寬依舊顯得小了些,但是考慮到這是一款移動GPU并且上代產(chǎn)品只采用了4寬度,這樣的改進還是頗為顯著了,

    除了波前陣列外,新架構(gòu)在執(zhí)行引擎的設計上也有所調(diào)整。之前BiforstGPU老圭至Midgard GPU在設計上采用的是多執(zhí)行引擎方案,每個執(zhí)行引擎將擁有自己的專用數(shù)據(jù)路徑和控制邏輯,自己的調(diào)度程序、指令緩存、寄存器文件和消息傳遞模塊,這自然會帶來大量的晶體管開銷。在高端GPU上,這樣的設計就顯得頗為浪費,因為高端GPu往往會采用更多的執(zhí)行引擎,如果都采用多執(zhí)行引擎設計的話,每一個執(zhí)行引擎都有自己的一套”班子”且會進行重復的工作,晶體管會被大量浪費。

    Mali-G77改變了這種狀況。Mali-G77將前幾代的小型執(zhí)行引擎整合在一個帶有共享控制邏輯的大型P模塊中。新引擎的IP設計依然存在一些重復的地方,比如ALU流水線被劃分為兩個“群集”,每個群集都有自己的16寬度的FMA單元以及相應的執(zhí)行單元。相比前代方案,這樣的設計大幅度降低了晶體管使用量,能夠讓更多晶體管投入到有效的計算中去。

    它在ISA方面也有所改變,ARM簡化了很多指令。目前還沒有更多細節(jié)可供參考,但新的IsA更易編譯,并經(jīng)過重新設計和調(diào)整,使得其可以更好地與現(xiàn)代API,比女BVulkan保持一致。和之前在Biforst中使用的ISA相比,親斤IsA采用了一部分新編碼,更為規(guī)整和易用。

    另外,新IsA在指令調(diào)度上帶來了重大改進。Va lhall架構(gòu)所采用的新ISA擺脫了固定的issue調(diào)度、clauseS子句和tuples元組。在Biforst中,ARM將指令的調(diào)度委托給編譯器,并且將指令分組到所謂的子句中。這種做法在實際應用中的效果尚可,但需要在編譯器上投入大量工作才能隱藏指令和數(shù)據(jù)訪問之間的延遲,因此頗為麻煩。在Valhall中,這些編譯器的復雜工作都將不復存在。因為ISA的調(diào)度將完全由硬件完成,更類似亂序執(zhí)行的CPU的工作方式。這種設計還意味著ISA和微架構(gòu)的脫節(jié),更具前瞻性。

    新lsA帶來了一些其他方面的優(yōu)化,包括紋理增強能力的加強,幾何流的優(yōu)化和ARM幀緩沖壓縮技術(shù)的優(yōu)化等(版本升級至1.3)。進一步深入研究執(zhí)行引擎的話,可以發(fā)現(xiàn)執(zhí)行引擎分為四個塊,分別是:波前陣列調(diào)度程序、指令緩存的前端、兩個相同的數(shù)據(jù)路徑集群(處理單元)以及和消息塊連接的加載,存儲單元、固定功能模塊等。

    Mali-G77的前端最多支持64寬的波前陣列和1024個線程。每個處理單元具有3個ALU:FMA和BCVT的波前陣列都是16寬度,而特殊的SFU波前陣列采用了4寬度。SFU并不是常用的單元,因此并不需要太大的吞吐量。

    MaIi-G77的前端可以創(chuàng)建或者退回波前陣列數(shù)據(jù),并且為所有的波前陣列進行狀態(tài)跟蹤。另外,MaIi-G77前端還增加了一個動態(tài)調(diào)度功能,這個功能可以決定每個波前陣列將執(zhí)行哪些指令,還可以將等待中的相關聯(lián)波前陣列替換為準備執(zhí)行的無關聯(lián)波前陣列,盡可能提高執(zhí)行效率。

    指令緩存方面,Mali-G77的前端指令緩存采用的是共享設計模式,并且是16KB、4路關聯(lián)的方式,支持2048個指令,每周期可以發(fā)出4個指令。在實際的處理單元(集群)中,Mali-G77設計74個可以發(fā)送指令到算術(shù)單元的拾取單元。每個拾取單元都設計了一個精密耦合的寄存器,以及一個用于減少訪問寄存器文件延遲的轉(zhuǎn)發(fā)緩沖區(qū)。FMA ALU每周期支持16個FP32FMA,是FP16的2倍,也是INT8點陣的2倍。轉(zhuǎn)換單元處理基本整數(shù)操作和自然類型轉(zhuǎn)換操作,同時也會被用作分支端口。

    總的來看,相比Mali-G76,Mali-G77的執(zhí)行引擎資源更為豐富,類似于一臺發(fā)動機和三臺發(fā)動機之間的區(qū)別。Nali-G77的引擎在主數(shù)據(jù)路徑上有更多的資源,并且控制和指令緩存所占據(jù)的空間更少,從而提高了整個計算模塊的面積效率。

    在延遲方面,新架構(gòu)的ALU延遲將變?yōu)?個周期深度,之前的產(chǎn)品為8個周期。這樣的變化可以在沒有鏈路操作時提高性能。此外,新核心具有類似超標量的功能,而不是過去的管狀設計。由于延遲降低,整個核心流水線必須進行重新設計,這也是編譯器簡化的重要原因之一,因為編譯器不需要再匹配同時發(fā)出的指令大大降低了復雜程度。

    Mali-G77架構(gòu)解讀

    在看過基本架構(gòu)的設計后,再來看看Mali-G77微架構(gòu)設計的內(nèi)容。MaIi-G77微架構(gòu)從整體來看和上一代產(chǎn)品存在很多相似之處,但是在一些重要的模塊上存在明顯的變化。

    Nali-G77的Shader核心依舊包合執(zhí)行引擎,其中包含了高速緩存的加載和存儲單元、屬性(attribute)單元,變化(varying)單元、紋理映射單元和像素后端,以及各種其他的3D固定功能模塊。其中變化最大的是紋理單元模塊,和Mali-G76相比,新的紋理單元模塊吞吐量增加了一倍。

    從高級功能來看,新紋理單元微架構(gòu)的主要改變是在吞吐量的設計上。新的設計被分為2個路徑,其中一個是命中路徑,另一個是未命中路徑,后者可以用于處理緩存內(nèi)部或者紋理緩存外部的未命中情況。命中路徑自然是皆大歡喜的最短延遲優(yōu)化路徑。此外在命中路徑方面,紋理緩存得到了大幅度改進,變成32KB容量,并且能夠達到16個紋理每周期的吞吐量。濾波單元也得到了改進,其吞吐量也有所提高。在Mali-G77上,雙線性紋理每循環(huán)支持一個四邊形處理,三線性紋理每循環(huán)支持半個四邊形處理,這兩者都達到了Nali-G76類似單元吞吐量的2倍。

    同樣,ARM也表示Mali-G77的新紋理單元和Mali-G76基本相同,不過吞吐量倍增還是顯示出這是一個非常好的工程改進實例。

    從根本上來說,核心紋理能力的這種大幅度增加改變了GPU的ALU:Tex的比率。盡管ALu的計算能力增加了33%,但是紋理單元的吞吐能力翻倍意味著比率回歸到了一個比較低的水平,更有利于紋理吞吐量。相比之下,過去的GPu更重視計算性能。ARM認為這是面對新的工作負載所需要進行的改變,因為如今GPu在紋理方面的壓力變得更大。

    需要注意的是,雖然紋理單元過濾、吞吐量大幅度增加,但是像素后端吞吐量卻沒有增加。在這里,Shader核心依舊只能每時鐘抽取2個像素,因此現(xiàn)在的紋理、像素比率是2:1,前代產(chǎn)品則是1:1。

    shader核心模塊中的另一個重要改進是新的讀取存儲緩存。這個新模塊在功能上和之前的模塊相同,但是經(jīng)過了重新設計能夠接受更多的吞吐量。在同一區(qū)域內(nèi),由于緩存重新設計因此對應管道階段的延遲也降低至前代產(chǎn)品的一半。另外,新緩存的帶寬也增加了,達到前代產(chǎn)品的2倍。具體規(guī)格方面,緩存的大小為16KB、4路關聯(lián),據(jù)說對機器學習等類似負載非常有用。

    最后,我們將所有的部件放在一起,并從Shader級別擴展至GPU級別之后,可以看到ARM是如何重新組織各個單元模塊而成為一個完整GPu的。目前新的架構(gòu)支持Shader核心1核心擴展至32核心(MaIi-G77最多只能支持16個核心)。另外,ARM為RTL版本準備的最小核心設計采用了7個Shade—亥心。ARM還有可能公布諸如MaIi-G52這樣的小核心方案,以滿足不同用戶的需求。

    PPC和效率提高30%

    前文描述了很多VaIhall架構(gòu)以及MaIi-G77的變化。當然,所有的這些設計最終需要轉(zhuǎn)化為性能、效率等各方面的表現(xiàn),才能體現(xiàn)出它的意義。

    ARM同樣給出了相關性能的預覽圖。不過本次發(fā)布的性能預覽和過去存在很大差異,ARM采用了每平方毫米的性能作為對比單位。一般來說,由于芯片廠商會根據(jù)自己的不同市場定位和需求進行配置,因此采用某種固定GPu核心數(shù)量和頻率的方案進行比較的話,覆蓋面不夠廣泛。因此ARM改用了每平方毫米性能作為對比參數(shù)。ARM宣稱,Mali-G77相比前代產(chǎn)品,能夠提供1.2倍到1.4倍每平方毫米性能的提升。從絕對意義上看,Mali-G77的Shader核心和Mali-G76的面積相同。

    這意味著供應商在相同的性能需求下,可以選擇更小的GPu,或者使用更多的GPu核心(當然需要更多的面積)來提高性能。尤其是ARIVl聲稱Mali-G77在重紋理游戲中的性能表現(xiàn)更為出色,因此未來設備在不同的工作負載下性能表現(xiàn)到底如何,這樣是一個值得探尋的話題。

    提高性能的另一個方法是提高時鐘頻率。不過在移動soc中,限制來自功耗,智能手機的soc最多只能容納4W~5W的TDP功耗。在性能比較中,一些消息顯示在完成相同工作負載的情況下,Mali-G77的能源消耗降低了17%-29%。換句話來說,Mali-G77的每瓦特性能是前代產(chǎn)品的1.2倍到1.39倍。ARN表示,Mali-G77的基本頻率不會發(fā)生太大變化,ARM依舊以850MHz作為其目標值。

    在橫向?qū)Ρ确矫?,ARM宣稱其在與采用Mali-G76的三星Exynos 9820對比時,新處理器的性能將提升1.4倍,這意味著未來采用Mali-G77架構(gòu)的50C將以更高的能耗比(假設維持目前的功率水平),提供接近蘋果A12處理器的GPU性能。這將給高通帶來巨大壓力,因為這樣的性能表現(xiàn)將顯著超越目前的高通所使用的Adreno 640。不過高通也將發(fā)布全新的Soc產(chǎn)品,讓我們拭目以待吧。

    此外,在目前大熱的機器學習方面,Mali-G77的性能相比上代產(chǎn)品提升了60%,這不僅是由于內(nèi)核數(shù)量增加了33%,還包括Lsc以及帶寬所帶來的性能提升。最后,ARM也展示了MaIiGPu家族性能提升的代際比較。ARM宣稱其每代能耗比提升幅度大約是30%,Mali-G77相比Mali-G72更是節(jié)約了50%的能源。

    ARM的又一次躍進

    從官方資料來看,Valhall架構(gòu)和Mali-G77將成為ARM近期的重大技術(shù)革新。全新的架構(gòu)將改變ARt在移動GPU競爭中的態(tài)勢,使得ARM可以提供更好的GPu架構(gòu)和技術(shù)。新產(chǎn)品將會帶來更好的表現(xiàn),畢竟Valhall架構(gòu)是一個具有潛力的架構(gòu),ARM還將基于它推出更多產(chǎn)品。

    從實際產(chǎn)品來看,今年晚些時候或者明年初,我們就可能看到三星或華為推出了基于Valhall架構(gòu)和Hali-G77的相關Soc產(chǎn)品。目前來看,Mali-G77能夠帶來出色的性能和效率提升,這使得三星和華為的處理器能夠進一步縮小甚至超越和蘋果、高通的產(chǎn)品,尤其是高通的Aderno GPU,可能將面臨更為嚴峻的挑戰(zhàn)。

    猜你喜歡
    吞吐量引擎紋理
    基于BM3D的復雜紋理區(qū)域圖像去噪
    軟件(2020年3期)2020-04-20 01:45:18
    使用紋理疊加添加藝術(shù)畫特效
    藍谷: “涉藍”新引擎
    商周刊(2017年22期)2017-11-09 05:08:31
    TEXTURE ON TEXTURE質(zhì)地上的紋理
    Coco薇(2017年8期)2017-08-03 15:23:38
    2016年10月長三角地區(qū)主要港口吞吐量
    集裝箱化(2016年11期)2017-03-29 16:15:48
    2016年11月長三角地區(qū)主要港口吞吐量
    集裝箱化(2016年12期)2017-03-20 08:32:27
    消除凹凸紋理有妙招!
    Coco薇(2015年5期)2016-03-29 23:22:15
    無形的引擎
    河南電力(2015年5期)2015-06-08 06:01:46
    基于Cocos2d引擎的PuzzleGame開發(fā)
    2014年1月長三角地區(qū)主要港口吞吐量
    集裝箱化(2014年2期)2014-03-15 19:00:33
    德惠市| 宜春市| 尼玛县| 杭锦后旗| 凤翔县| 集安市| 治县。| 曲靖市| 屯留县| 九龙坡区| 芷江| 嵊泗县| 南陵县| 隆昌县| 安平县| 瑞安市| 鹿邑县| 公安县| 济宁市| 清远市| 德格县| 布尔津县| 博野县| 曲周县| 朝阳县| 嵊州市| 闽侯县| 全椒县| 新建县| 林甸县| 岱山县| 上林县| 河曲县| 壶关县| 佳木斯市| 库伦旗| 吉木乃县| 舒兰市| 和政县| 江门市| 沙雅县|