葬月飄零
①早期3D經(jīng)典游戲,缺乏3D特效使其看起來如此粗糙
除了游戲廠商之外,顯卡廠商也是游戲畫面質(zhì)量提升的重要推手,兩者更是互相制約、互相推動。顯卡架構(gòu)的每—次升級迭代都能夠?yàn)橥婕規(guī)懋嬅嫔系男麦@喜,而一些“顯卡殺手”級的游戲以及其中使用的華麗特效,又在召喚著顯卡能力的提升。那么顯卡架構(gòu)與游戲究竟是一種什么樣的關(guān)系?為什么每一次顯卡新構(gòu)架的出現(xiàn)都能帶來畫面表現(xiàn)力的極大提升?顯卡的架構(gòu)對游戲的畫面質(zhì)量、速度究竟有多大影響?是不是只有最新的顯卡才是選購的最佳目標(biāo)?這就是我們今天要討論的內(nèi)容。
T999年英偉達(dá)(NVIDIA)公司發(fā)布了GeForce 256圖形處理芯片(圖2),該芯片的發(fā)布意味著顯卡GPU概念的首次出現(xiàn)。在此之前的所謂顯卡芯片僅僅具有貼圖紋理與像素填充等簡單功能,大量3D相關(guān)計算都是CPU完成的。而更早的顯卡甚至只是顯示器的適配器,其最大意義還是在顯示器上顯示2D圖形,談不上什么“架構(gòu)”,所以這里就不深入說明了。下文中提到的顯卡、GPU等,均是GeForce 256及之后的相關(guān)產(chǎn)品。
②GeForce 256的出現(xiàn)催生了顯卡架構(gòu)的概念
GeForce 256圖形處理芯片采用了硬件T&L( Transform and Lighting,圖形坐標(biāo)轉(zhuǎn)換與光源處理)技術(shù)。圖形坐標(biāo)轉(zhuǎn)換對模型坐標(biāo)點(diǎn)相關(guān)內(nèi)容進(jìn)行計算,而光源映像運(yùn)算則要對固定光源切入的角度、攝像機(jī)觀察角度等變量進(jìn)行陰影以及反光面、光源變化等的相關(guān)運(yùn)算(圖3)。這兩種計算互相配合,就能呈現(xiàn)出在不同觀察角度下,受到不同光源方向照射到形狀各異的3D模型后的樣子。加上對貼圖計算的立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖等技術(shù),再配合上更精細(xì)的紋理和貼圖,就能夠呈現(xiàn)出質(zhì)量更高、更真實(shí)的畫面。
③有了光源、陰影等技術(shù)的游戲畫面
上述幾個關(guān)鍵技術(shù)及其對硬件調(diào)用的協(xié)同運(yùn)作方式就是GPU架構(gòu)的概念。舉個簡單形象化的例子來理解就是把GPU比作一家公司,這家名為GPU的公司要正常運(yùn)轉(zhuǎn)起來需要設(shè)立哪些部門?這些部門分別做什么工作?各部門之間如何協(xié)同起來?這整個的運(yùn)作規(guī)則就是GPU的架構(gòu)。需要注意的是,這個公司剛剛建立,就從CPU“公司”接管了不少工作,比如前面提到的T&L計算,而從CPU不斷接管圖形處理的相關(guān)工作,也是GPU發(fā)展的一大趨勢。
時間繼續(xù)推進(jìn),隨著DX新版本的迭代,渲染流水線的概念出現(xiàn)了,它是顯示芯片中相互獨(dú)立且并行的圖形處理單元。一條完整的渲染流水線由像素著色單元(Pixel Shader Unit,PSU)、材質(zhì)繪制單元(Texture mappingunit,TMU)、光柵化操作單元(RasterOperations Units,ROPs)三部分組成。像素著色單元和材質(zhì)繪制單元確定和處理畫面中的一個個點(diǎn)/面的色彩,ROPs則將其綜合形成完整的圖像。
2002年,隨著微軟DX9的發(fā)布,T&L被拋棄,同時引入了全新的頂點(diǎn)著色(VertexShader,VS)技術(shù)。它允許開發(fā)者通過軟件指令的方式來為3D物體每一個頂點(diǎn)的更多種變量進(jìn)行自由定義,如某個3D多邊形每—頂點(diǎn)的X、y、z坐標(biāo)的顏色、初始路徑、光照等均可自由定義。由于可以對頂點(diǎn)進(jìn)行各項(xiàng)變量的定義,開發(fā)者可以更簡單、更方便地構(gòu)建更真實(shí)的3D物體,實(shí)現(xiàn)圖像的各種高級視覺效果,如水波、復(fù)雜地形等(圖4)。這—方面提升了生成畫面的表現(xiàn)力與畫質(zhì),另—方面也提高了硬件使用效率。
④顧名思義,頂點(diǎn)著色器善于處理有大量頂點(diǎn)的圖像
DXTO的時代開始后,流處理器(StreamProcessors,SP)的概念出現(xiàn)(圖5)。流處理器是直接將多媒體圖形數(shù)據(jù)流映射到流處理器上進(jìn)行處理。簡單來說,DXlO將定點(diǎn)著色和像素著色合并成一個統(tǒng)一渲染(UnifiedShader,US)單元。圖形數(shù)據(jù)被分解成并行的分組數(shù)據(jù),這些數(shù)據(jù)交給流處理器進(jìn)行處理,再轉(zhuǎn)換組合為整幅畫面的視頻信號,傳送至顯示器顯示出來。這種通過大量(數(shù)百至數(shù)千個)流處理器對畫面數(shù)據(jù)進(jìn)行并行處理的方式極大地提升了圖形的運(yùn)算與傳輸效率,畫面流暢性也有很大的提升,今天顯卡的架構(gòu)仍然是基于這一模式的各種改進(jìn)。
⑤DirectX10推出的流處理器概念延續(xù)至今,也讓Di rectX徹底確立了在3D處理中的地位
小提示
從這段描述中大家應(yīng)該也會發(fā)現(xiàn),所謂的顯卡架構(gòu)大多數(shù)情況下實(shí)際上就是GPU架構(gòu),而即使外部的顯存等有一些變化,也可以看作是GPU架構(gòu)的外延。但由于目前大家都更習(xí)慣于說“顯卡架構(gòu)”而非“GPU架構(gòu)”,所以下面我們就繼續(xù)使用這個名稱。
2006年11月,英偉達(dá)發(fā)布了業(yè)界第一款支持DirectX10構(gòu)架的GPU——G80。它由8個SM(流處理器)陣列、6組TA(紋理尋址)和6組ROPs組成,整個構(gòu)架以高速交叉總線直連的方式連接(圖6)。前端處理器將圖像數(shù)據(jù)指令都處理成適合SM處理器處理的大小,也就是所謂的1D,然后交予1個流處理器處理。像這樣先統(tǒng)一拆分后分配計算的好處是最大限度地利用每一個流處理器,因而不會產(chǎn)生流處理器閑置的情況,提升了運(yùn)行效率。順便說一句,這與目前CPU的工作方式其實(shí)很相似。
⑥G80架構(gòu)
顯然,顯卡架構(gòu)升級的目的就是借助新的工作方式、利用新的處理模塊來更有針對性地提升軟硬件之間互相配合的能力以及整體工作效率,并以此更進(jìn)一步滿足硬件對圖形的處理應(yīng)用需求。
要講架構(gòu)對游戲的影響,此時正值新舊架構(gòu)交替期的N卡是最好的例子,我們就借此來看看這兩種架構(gòu)在游戲圖形方面提供了什么樣的新技術(shù)。一方面通過簡單對比能夠更加深刻地體會到顯卡架構(gòu)迭代的意義,另一方面也為糾結(jié)于究竟該選擇哪種架構(gòu)顯卡的讀者提供一些啟示。
相對于Pascal架構(gòu)的GTXTOXX系列顯卡,基于Turing架構(gòu)的新一代中高端顯卡如RTX2080 Ti、RTX 2080、RTX 2070等,主要的變化是增加了Tensor Core和RT Core單元,成就了光線追蹤(Ray tracing,RT,以下簡稱光追)和深度學(xué)習(xí)超采樣(Deep Learning Super-Sampling,DLSS)兩項(xiàng)新技術(shù)(圖8)。
小知識
在解釋近期的顯卡架構(gòu)之前,我們還應(yīng)該明白顯卡架構(gòu)命名規(guī)則。目前獨(dú)立顯卡的兩大流派——N卡和A卡分別指的是使用英偉達(dá)和AMD兩大公司GPU的顯卡。兩家公司對于性能的提升有著各自的思路,因此GPU架構(gòu)設(shè)計也略有不同。當(dāng)然兩家顯卡架構(gòu)的命名規(guī)則也各不相同。AMD GPU架構(gòu)被稱為GCN(Graphics CoreNext)架構(gòu),目前的核心代號均為星座,例如RX系列為Polaris(北極星),高端則為Vega(織女星)。英偉達(dá)則以科學(xué)家的名字來命名顯卡架構(gòu)/核心,如Kepler(開普勒)、Maxwell(麥克斯韋),以及現(xiàn)在仍在售的Pascal(帕斯卡)、最新的Turing(圖靈)等(圖7)。
⑦N卡歷代顯卡架構(gòu)命名
更有趣的是,基于Turing架構(gòu)的顯卡中,面向主流的產(chǎn)品放棄了TensorCore和RT Core單元,形成了GTX 16XX系列顯卡。它們沒有重要的額外畫質(zhì)優(yōu)化,可以用來了解新架構(gòu)在同等畫面條件下到底有什么優(yōu)勢。
光追技術(shù)和畫面特色
先說中高端顯卡和新增畫面特效。光追的原理是向成像平面上的像素發(fā)射光線,追蹤這條光照路線并找到阻擋光線傳播的其他物體。如果交點(diǎn)表面為散射面,那么就計算光源直接照射該點(diǎn)產(chǎn)生的顏色,如果為鏡面或折射面,那么繼續(xù)向反射或折射方向跟蹤另一條光線。如此往復(fù)循環(huán),直到光線離開場景為止。這一技術(shù)能更加真實(shí)地呈現(xiàn)出現(xiàn)實(shí)中復(fù)雜光影交織后的景象。給畫面的光影視覺效果帶來極大的提升。借助工作集群,光追早已在電影工業(yè)中得到了廣泛應(yīng)用,如“復(fù)聯(lián)”系列電影的一些場景就是通過龐大的工作站集群一幀一幀地進(jìn)行光追計算所呈現(xiàn)出來的。借助RTX20XX系列顯卡,玩家們也能夠享受到光追技術(shù)呈現(xiàn)出的更加真實(shí)的光影效果了。
不過也可以想見,在比較“自然”的場景中擁有多達(dá)數(shù)百萬個多邊形,大量的不規(guī)則反光物體和大量光線所需的光追計算量極大。很顯然,將這樣大的計算量變成現(xiàn)實(shí),不能僅靠提升計算能力,必須進(jìn)行優(yōu)化和簡化,目前估計Turing架構(gòu)的光追單元實(shí)際上就是內(nèi)置了大量形狀和材質(zhì)的表面反射數(shù)據(jù),可根據(jù)情況直接調(diào)用而無需進(jìn)行復(fù)雜計算(圖9)。
更智能的抗鋸齒
我們應(yīng)該都有這樣的電腦使用經(jīng)驗(yàn):將高分辨率的圖像縮得越小感覺就越清晰,DLSS正是使用這種方法提高圖像質(zhì)量的技術(shù)。簡單來說,DLSS技術(shù)是從低分辨率圖像生成高分辨率圖像,然后再將高分辨率圖像縮回一點(diǎn)并輸出為中等分辨率圖像,也就是SSAA(超采樣圖像抗鋸齒)圖像,可以讓玩家看到的圖像更顯清晰。但這樣同樣要有巨大的運(yùn)算量為基礎(chǔ)才行,加上光追等光影、畫質(zhì)技術(shù),GPU的運(yùn)算能力和運(yùn)算速度很可能不足以勝任,英偉達(dá)通過深度學(xué)習(xí)來解決這一問題。與游戲開發(fā)商溝通后,英偉達(dá)通過大量的訓(xùn)練,增加生成高分辨率畫面的效率,通過自家的深度學(xué)習(xí)工作集群成功建立智能模型后,再將這個模型發(fā)放到用戶的顯卡上,這樣用戶的顯卡可以使用這個有針對性的模型對圖形計算過程進(jìn)行簡化與優(yōu)化,以此來提升圖形與光影的運(yùn)算效率,使得單張顯卡就能夠勝任如此龐大的運(yùn)算量(圖10)。
⑩超采樣圖像抗鋸齒工作原理
那么,是否必須要追求最新的顯卡架構(gòu)呢?同樣用RTX顯卡的能力來說明。雖然Turing架構(gòu)顯卡已經(jīng)發(fā)布了9個月以上,但目前對光追支持的游戲作品數(shù)量少得可憐,20T8年8月德國科隆游戲展上,英偉達(dá)首發(fā)Turing架構(gòu)RTX系顯卡時公布的支持光追的游戲僅有《戰(zhàn)地5》、《古墓麗影:暗影》、《地鐵:逃離》三款,到目前為止,宣布支持光追的游戲不少,但真正上市、能展現(xiàn)光追技術(shù)的游戲數(shù)量卻仍然屈指可數(shù),有全球影響力的則仍然是這三款。
其次,作為一個新的光影技術(shù),光追還有很大的優(yōu)化和提升空間,RTX顯卡啟動光追功能后游戲幀速下降非常明顯。例如在運(yùn)用光追最復(fù)雜的游戲《地鐵:離去》中,所有光照以及其產(chǎn)生的陰影均為光追技術(shù)實(shí)時計算,高畫面設(shè)置+高光追效果會讓RTX的游戲幀速下降40%甚至50%以上,使用RTX2080時108幀/秒的速度尚可,但在RTX2060上卻從百幀以上驟降為68幀/秒,幾乎要落到“流暢”幀速以下(圖11)。
⑾開光追的《地鐵:離去》幀數(shù)在中端顯卡中的表現(xiàn)不盡如人意
可以看到,光追技術(shù)在高端、旗艦級顯卡上表現(xiàn)是可以的,但是在中端、主流顯卡中卻只能說是勉強(qiáng)可用,雖然未來通過硬件與游戲引擎的磨合,光追技術(shù)在游戲中的綜合表現(xiàn)應(yīng)該會更好,但目前很難下放到中端以下顯卡中卻是不爭的事實(shí)。這也是為什么如今Pascal架構(gòu)GTX 1OXX還占據(jù)市場主流,取消光追技術(shù)的GTX16XX顯卡則成為玩家追捧的“甜點(diǎn)”。而且這些顯卡在不開啟光追功能的時候,性能相當(dāng)感人,與同等級RTX顯卡差距并不大。
類似光追技術(shù)的架構(gòu)升級并不少見,各代顯卡架構(gòu)提供的新功能,如毛發(fā)處理、表情處理等均有這一問題(圖12),即初代技術(shù)普及面較窄,且僅在高端、旗艦級顯卡中比較實(shí)用,所以主流玩家追新的意義不大。但是反過來,目前已經(jīng)可以明確光追技術(shù)將是下一代游戲畫面上的技術(shù)發(fā)展趨勢,如果資金足夠,多花點(diǎn)錢早入手早享受,也是一種選擇。
⑿AMD提出的發(fā)絲處理特效TressFX,也曾經(jīng)只有高端顯卡能降服
至于A卡方面,目前性價比不錯的RX 580/590和即將上市的Navi核心顯卡雖然沒有內(nèi)置光追模塊,但實(shí)際性能、畫質(zhì)、性價比只要不弱于GTX10XX/16XX顯卡,就仍然有其生命力,完全可以作為主流玩家的游戲利器,再戰(zhàn)數(shù)年。
通過本文的簡要介紹,相信讀者們已經(jīng)大致對顯卡架構(gòu)這種聽起來很專業(yè)的術(shù)語有了一定的理性認(rèn)識了,而且也一定對英偉達(dá)最新的Turing架構(gòu)究竟值不值得現(xiàn)在入坑有了自己的判斷。按需選擇而并非無腦追求高端高價位,以科學(xué)的選購原則配合上一些相關(guān)的專業(yè)知識,就不難選購到最適合自己的顯卡了。