在GTC2016(GPU技術(shù)大會(huì))上,NVIDIA Pascal(帕斯卡)架構(gòu)首款GPU:Tesla P100驚艷全場(chǎng)。可惜,P100不是針對(duì)游戲玩家和臺(tái)式機(jī)推出的,而是用于科學(xué)計(jì)算等專業(yè)領(lǐng)域。隨著GTX1080的問(wèn)世,Pascal才算與游戲玩家有了親密接觸的機(jī)會(huì)。那么,GTX1080是如何延續(xù)強(qiáng)者之路的?
Tesla P100的驚鴻一瞥
作為最早亮相的Pascal GPU,Tesla P100是由該架構(gòu)中的頂級(jí)核芯“GP100”簡(jiǎn)化而來(lái),擁有超過(guò)150億個(gè)晶體管,內(nèi)建3584個(gè)CUDA單元和224個(gè)紋理單元(標(biāo)準(zhǔn)的GP100核芯應(yīng)該有3840個(gè)CUDA單元和240個(gè)紋理單元),在HBM2顯存的加持下帶寬可達(dá)到驚人的720GB/s。可惜,Tesla P100并不面向民用市場(chǎng)(圖1)。如果你有興趣染指的話,則需購(gòu)買129000美元的DGX-1盒(圖2),并忍受其3200W的功率……很不靠譜對(duì)嗎?
還好,NVIDIA針對(duì)民用市場(chǎng)還準(zhǔn)備了Pascal架構(gòu)的中端核芯“GP104”,并將其“塞進(jìn)”了全新一代顯卡GTX1080的身上。對(duì)所有發(fā)燒級(jí)游戲玩家而言,NVIDIA GTX1080無(wú)疑是現(xiàn)階段的夢(mèng)想之芯。接下來(lái),我們就一起看看GTX1080的進(jìn)化之路。
先從16nm制程工藝談起
對(duì)于CPU和GPU這種芯片來(lái)說(shuō),增加晶體管數(shù)量就是提升性能的最有效手段。但是,NVIDIA在過(guò)去4年中一直在沿用28nm FinFET制程工藝,GeForce 900系列早已將該工藝的潛力挖掘到了頭,很難再有突破。換句話說(shuō),28nm工藝已經(jīng)無(wú)法滿足NVIDIA新一代Pascal GPU的設(shè)計(jì)需求了。
很難理解?那我們就不妨回顧一下手機(jī)領(lǐng)域的高通上代旗艦驍龍810處理器,這顆CPU就是因?yàn)椴捎昧撕推浼軜?gòu)不匹配的20nm制程工藝而出現(xiàn)了包括發(fā)熱異常、頻繁降頻在內(nèi)的各種問(wèn)題,最終成為高通史上最失敗的CPU之一。痛定思痛之后,高通為新一代驍龍820找來(lái)了三星14nm LPP工藝助陣,重新找回來(lái)作為一線處理器的尊嚴(yán)。
NVIDIA也是如此。為了解決新一代Pascal GPU的后顧之憂,NVIDIA選擇了臺(tái)積電的16nm FinFET Plus(又稱“16FF+”)與其搭配。我們熟悉的蘋果A9、麒麟950/955、麒麟650等手機(jī)處理器也都是16nm FinFET Plus的“客戶”。按照臺(tái)積電的說(shuō)法,16nm FinFET Plus工藝相比28nm HPM可提升65%的性能或減少70%的能耗。
言歸正傳。作為NVIDIA GTX1080的核芯(圖3),“GP104”在16nm FinFET Plus工藝的幫助下,硬是在比GTX980還要小的封裝面積(芯片表面積)里塞進(jìn)了接近TITAN X和GTX980 Ti的晶體管數(shù)量(表1)。
與此同時(shí),GTX1080的核心頻率也有了大幅提升,加速頻率較GTX980提高了40%以上。最令人驚喜的是,GTX1080在晶體管數(shù)量翻番且核心頻率猛增之后,它的TDP功耗竟然只比GTX980高了15W,遠(yuǎn)遠(yuǎn)低于TITAN X和GTX980 Ti的250W,這意味著GTX1080只需外接一個(gè)8pin的電源線即可穩(wěn)定運(yùn)行(圖4)。
以上種種改進(jìn),就是16nm FinFET Plus工藝帶來(lái)的增益“BUFF”。至此,你還敢小看工藝對(duì)芯片性能的影響嗎?
由內(nèi)之外的進(jìn)化之路
細(xì)心的用戶可能發(fā)現(xiàn)了,和NVIDIA TITAN X/ GTX980 Ti相比,GTX1080的CUDA、紋理單元和光柵單元的數(shù)量上都不占優(yōu)勢(shì)。那么,它在性能上又能擊敗看似更強(qiáng)悍的TITAN X/ GTX980 Ti嗎?在談及性能之前,我們還是應(yīng)該先了解一下GTX1080在工藝之外的改進(jìn)之處。
核芯架構(gòu)層面的優(yōu)化
我們可以將“GP104”理解為上代“GM204”的優(yōu)化版。它們都是由4組“GPC”(圖形處理簇)和顯存控制器組成,但差別卻體現(xiàn)在:
1.“GM204”的每組GPC包含4個(gè)“SMM”(計(jì)算單元組),每個(gè)SMM集成了128個(gè)CUDA單元和8個(gè)紋理單元(圖5);
2.“GP104”取消了SMM概念,并將其改名為“TPC”(圖6),它包含Polymorph 4.0(幾何引擎)和SM(CUDA單元簇)等。同時(shí),“GP104”的每組GPC包含5個(gè)TPC,每個(gè)TPC同樣集成128個(gè)CUDA單元和8個(gè)紋理單元(圖7);
3.“GP104”的顯存控制器從“GM204”時(shí)期的4個(gè)位寬為64bit的顯存控制器改為了8個(gè)位寬為32bit的顯存控制器,每個(gè)顯存控制器配備了8個(gè)光柵單元,與顯存接口一一對(duì)應(yīng)。這項(xiàng)細(xì)化賦予了GP104更靈活的存儲(chǔ)資源調(diào)度能力,并與其顯存效能的提升息息相關(guān)。
因此,一個(gè)完整的“GP104”核芯就包含了2560個(gè)CUDA單元(4×5×128)、160個(gè)紋理單元(4×5×8)、64個(gè)光柵單元(8×8)以及256bit顯存位寬(8×32)。
根據(jù)木桶原理,GPU核心頻率是由無(wú)數(shù)設(shè)計(jì)電路中速度最慢的那一路徑?jīng)Q定的。NVIDIA此次鉆了“牛角尖”,找到并攻克了那條速度最慢的設(shè)計(jì)電路,因此將GP104的核心頻率提升到了驚人的1733MHz,將上代顯卡遠(yuǎn)遠(yuǎn)拋在身后,確保每一瓦電力都能發(fā)揮其最大性能。NVIDIA還曾表示,GP104結(jié)合全新的GPU Boost 3.0技術(shù),其超頻幅度可達(dá)1800MHz甚至更高,如此一來(lái)就大大降低了日后超頻版GTX1080的設(shè)計(jì)門檻。
GDDR5X彌補(bǔ)HBM 2顯存遺憾
GTX1080最令人遺憾之處就是沒(méi)能加入對(duì)HBM 2顯存的支持。作為彌補(bǔ),NVIDIA引入了全新的“GDDR5X”顯存的概念(圖8),并改善了GPU和顯存芯片之間的信號(hào)通路。作為GDDR5的改良版,GDDR5X的運(yùn)行速率從7Gbps提升到了10Gbps,總體帶寬可達(dá)320GB/s,較GTX 980顯卡的224GB/s提升43%,甚至足以媲美384bit位寬的TITAN X和GTX980 Ti了。
與此同時(shí),GTX1080的無(wú)損顯存壓縮技術(shù)也得以升級(jí),改進(jìn)了2∶1壓縮效率,新增了4∶1和8∶1壓縮算法,進(jìn)一步提升了顯存性能。
新技術(shù)和新特性的改良
NVIDIA對(duì)GTX1080還是很用心的,不僅想盡一切辦法提升性能,還對(duì)其進(jìn)行了諸多新技術(shù)和新特性的改良。
更進(jìn)一步的VR體驗(yàn)
毫無(wú)疑問(wèn),GTX1080絕對(duì)是未來(lái)高端VR PC的首選顯卡,而它在VR方面的改進(jìn)也沒(méi)有讓我們失望。比如,GTX1080支持同步多投影引擎(SMP,Simultaneous Multi-Projection)技術(shù),在三聯(lián)屏輸出的過(guò)程中,SMP技術(shù)可根據(jù)屏幕兩側(cè)的傾斜角度將正確視覺(jué)邏輯中的物體和形變投射進(jìn)來(lái)(圖9),讓用戶余光看到的是猶如真實(shí)世界中的窗口。
SMP在時(shí)下新興的VR體驗(yàn)上的作用更加明顯:VR所傳遞的圖像是類似魚眼效果的矩形畫面(只有中央位置的圖像實(shí)際有效),SMP可以進(jìn)一步省略掉畫面邊緣不必要的渲染內(nèi)容以節(jié)省資源提升幀數(shù)(圖10)。同時(shí),SMP還可以通過(guò)新的算法生成左右眼睛所看到的圖像,省略掉其中大量的重復(fù)運(yùn)算,理論上具有雙倍于Maxwell顯卡的效能。
值得一提的是,GTX1080支持全新的VR音頻及VR物理加速,前者可以模擬聲音在虛擬場(chǎng)景內(nèi)的互動(dòng)映射,實(shí)現(xiàn)類似現(xiàn)實(shí)中聲音碰到障礙物反射時(shí)的真實(shí)音效;后者則可以在游戲中加速布料、流體、火焰、發(fā)毛等物理運(yùn)動(dòng)特效,展示更為真實(shí)的效果。
此外,GTX1080還對(duì)異步運(yùn)算進(jìn)行了改良,可快速高效地并行處理多任務(wù),做到動(dòng)態(tài)負(fù)載平衡,以及像素級(jí)別的任務(wù)“搶占”,執(zhí)行效率大幅提升。而我們常用的GPU物理加速、音頻處理、渲染幀的后期處理,以及VR異步時(shí)間扭曲算法都能因異步運(yùn)算獲益。
走進(jìn)游戲世界的Ansel功能
如今限制VR發(fā)展的最大瓶頸之一就是內(nèi)容匱乏,那么作為普通用戶,我們是否能夠簡(jiǎn)單輕松地創(chuàng)建VR內(nèi)容?GTX1080的答案是,OK!
NVIDIA針對(duì)GTX1080開(kāi)發(fā)出了Ansel截圖功能,不要被“截圖”兩個(gè)字蒙蔽,這個(gè)功能可以顛覆傳統(tǒng)意義的畫面抓??!簡(jiǎn)單來(lái)說(shuō),玩家在游戲中可以使用Ansel截圖功能定格“游戲世界”,然后可以隨意切換方位和角度抓取游戲世界內(nèi)的畫面(圖11)。通過(guò)它,我們甚至可以截取VR全景照片(圖12),然后借助一些手機(jī)VR設(shè)備就能欣賞沉浸式的VR游戲場(chǎng)景了。
需要注意的是,Ansel截圖需要具體游戲的支持,游戲開(kāi)發(fā)商需要將Ansel集成到游戲程序當(dāng)中去才能實(shí)現(xiàn)猶如“上帝視角”的截圖功能。
GTX1080還有一些細(xì)節(jié)功能上的改進(jìn),比如避免顯示撕裂情況發(fā)生的Fast SYNC技術(shù)、更高性能的SLI連接橋設(shè)計(jì)(圖13)、GPU Boost 3.0技術(shù)等等。接下來(lái),我們就要揭開(kāi)GTX1080的性能之謎,看看它與上代旗艦之間的較量。
令人欣喜的性能表現(xiàn)
雖然GTX1080的CUDA、光柵、紋理單元數(shù)量和顯存位寬不如TITAN X和GTX980 Ti,雖然GTX1080的TDP功耗只比GTX980增加了15W,但這些都阻擋不住其出色的性能表現(xiàn):在所有的測(cè)試項(xiàng)目中(表2),都將TITAN X和GTX980 Ti甩到了后面,甚至已經(jīng)看不到GTX980的影子了。
作為Pascal GPU家族中首款上市的產(chǎn)品,GTX1080的性能表現(xiàn)只能用驚艷來(lái)形容(圖15)。無(wú)論是看似較低的TDP、看著薄弱的8pin供電、少于GM200的CUDA單元數(shù)量,都沒(méi)能成為它大幅領(lǐng)先于上代旗艦顯卡的瓶頸所在,Pascal GP104的動(dòng)力著實(shí)讓人熱血澎湃。
可惜,GTX1080公版價(jià)格高達(dá)5399元,在缺乏競(jìng)爭(zhēng)對(duì)手的大環(huán)境下,短期內(nèi)我們也無(wú)法指望它的價(jià)格能降下來(lái)。所以對(duì)絕大多數(shù)非發(fā)燒級(jí)游戲玩家而言,不妨將目光投向NVIDIA Pascal GPU家族中的“次子”,GTX1070身上。據(jù)悉,GTX1070的價(jià)格可能只有GTX1080的一半,但性能卻足以媲美甚至超越GTX TITAN X!
感受到Pascal GPU的強(qiáng)悍,我們更期待它能盡快入駐筆記本身上,讓移動(dòng)顯卡的性能可以更進(jìn)一步,至少要讓筆記本也能擁有足夠駕馭未來(lái)VR體驗(yàn)的性能吧?