Marcus Woo
Senior Technology Writer
對(duì)于計(jì)算機(jī)芯片來說,尺寸至關(guān)重要。芯片尺寸越小越好。根據(jù)Moore定律,集成在硅片上的晶體管數(shù)量每?jī)赡攴环?,從而使器件更輕薄以及功能更強(qiáng)大。
目前,加利福尼亞州的一家公司正在顛覆這一觀念。2019年8月,總部位于美國(guó)硅谷洛斯阿圖斯的Cerebras公司推出了有史以來世界上尺寸最大的芯片。這個(gè)芯片被命名為Wafer Scale Engine(WSE),它是由整個(gè)硅片制成。它的面積達(dá)到了46 255 mm2,相當(dāng)于一個(gè)Apple iPad的大小。尺寸第二大的芯片是由NVIDIA公司研制的GV100 Volta圖形處理器(GPU),其面積為815 mm2(圖1)。WSE的面積比GPU的面積大56倍以上。NVIDIA的GPU包含了211億個(gè)晶體管,而WSE包含了1.2萬億個(gè)晶體管[1,2]。
圖1. 隨著2019年8月WSE的推出,總部位于美國(guó)加利福尼亞州洛斯阿圖斯的Cerebras公司宣布生產(chǎn)出世界上最大的計(jì)算機(jī)芯片,且該計(jì)算機(jī)芯片由單晶硅制成。WSE旨在適應(yīng)人工智能計(jì)算速度不斷增長(zhǎng)的需求。圖片來源:Cerebras(公有領(lǐng)域)。
伊利諾伊大學(xué)厄巴納-香檳分校電子和計(jì)算機(jī)工程學(xué)院的副教授Rakesh Kumar表示,該芯片顯然是一個(gè)集成奇跡。能把如此大的一塊芯片組裝在一起是一件了不起的事情。
根據(jù)Cerebras公司的說法,研制這種芯片是為了適應(yīng)人工智能(AI)日益增長(zhǎng)的需求。AI算法首先通過處理大量數(shù)據(jù)來學(xué)習(xí)執(zhí)行一項(xiàng)任務(wù)。尤其像深度學(xué)習(xí)算法,該算法利用神經(jīng)網(wǎng)絡(luò)來模擬大腦的工作方式,它需要巨大的計(jì)算能力,因此訓(xùn)練可能要花費(fèi)數(shù)小時(shí)甚至數(shù)天。根據(jù)總部位于美國(guó)舊金山、專注于AI研發(fā)的Open-AI公司(該公司已得到了微軟公司的支持)最近的一項(xiàng)分析,2012—2018年,AI訓(xùn)練所需的計(jì)算能力增長(zhǎng)了30萬倍,倍增時(shí)間延長(zhǎng)至3個(gè)半月。這比Moore定律的最高值快了25 000倍[3]。
處理所有的這些計(jì)算需要比單個(gè)標(biāo)準(zhǔn)芯片更多的內(nèi)核。因此,多個(gè)芯片必須協(xié)同工作。但是,這也意味著數(shù)據(jù)必須能在多個(gè)芯片之間進(jìn)行傳輸。然而,數(shù)據(jù)在這個(gè)傳輸過程中所花費(fèi)的時(shí)間要比在單個(gè)芯片中傳輸所花費(fèi)的時(shí)間長(zhǎng)1萬倍以上[1]。
一個(gè)硅片可以被制成數(shù)十個(gè)甚至數(shù)百個(gè)小芯片。但是,Cerebras公司通過將一個(gè)完整的晶片制成一個(gè)集成芯片,設(shè)計(jì)了一個(gè)內(nèi)核處理器,該處理器不依賴于芯片外通信,因?yàn)樾酒馔ㄐ磐ǔ?huì)干擾常規(guī)系統(tǒng)。WSE使存儲(chǔ)內(nèi)核更靠近計(jì)算內(nèi)核,因此前者可以不斷向后者提供數(shù)據(jù),從而減少了計(jì)算內(nèi)核的空轉(zhuǎn)時(shí)間。據(jù)Cerebras公司介紹,該芯片擁有專為機(jī)器學(xué)習(xí)設(shè)計(jì)的架構(gòu),它優(yōu)化了芯片的AI訓(xùn)練。該芯片具有40萬個(gè)可編程內(nèi)核、18 GB靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)和每秒9 PB的存儲(chǔ)帶寬。與GPU相比,該芯片內(nèi)核數(shù)量增加了78 倍、片上內(nèi)存增加了3000倍以及內(nèi)存帶寬增加了1 萬倍[1,4]。
位于美國(guó)加利福尼亞州山景城的Linley Group是一家專注于微處理器產(chǎn)業(yè)的高級(jí)分析公司。Linley Group的一位資深分析師Mike Demler表示,WSE是一項(xiàng)卓越的成就。過去已有類似的嘗試,但從未成功過。例如,在1980年,芯片工程師Gene Amdahl用2.3億美元(當(dāng)時(shí)是最高的投資)創(chuàng)立了Trilogy公司,用于制造晶圓級(jí)芯片[5]。然而,該公司沒有成功,5年后就倒閉了[6]。
Demler表示,這些早期嘗試失敗的原因之一是芯片在制造過程中會(huì)產(chǎn)生很多的缺陷。當(dāng)你把一個(gè)晶片制成多個(gè)芯片時(shí),你只需丟棄有缺陷的芯片。但是這對(duì)由整個(gè)晶片制成的單個(gè)芯片并不起作用。
盡管現(xiàn)在的制造技術(shù)有了很大的改進(jìn),但缺陷仍然不可避免。Cerebras公司利用備用內(nèi)核和完美的架構(gòu)解決了這個(gè)問題。在制造過程中,任何有缺陷的芯片都會(huì)被識(shí)別出來,并且互連線會(huì)將有缺陷的內(nèi)核路由到備用內(nèi)核[7]。
除了需要解決這些缺陷,制造如此大的芯片還需要克服一些技術(shù)障礙,如散熱和功率傳輸。熱量導(dǎo)致硅的膨脹和與芯片連接的印刷電路板中材料的膨脹是不同的。因此,Cerebras公司必須設(shè)計(jì)出一種新的材料,這種材料在吸收熱應(yīng)力的同時(shí)還可以將電路板和芯片連接起來。Kumar說,單晶片級(jí)芯片需要15 kW的功率,而最大的GPU才需要250 W。因此,我們需要?jiǎng)?chuàng)新設(shè)計(jì),使得功率能被直接傳遞到晶片中間。然而,將電源線直接穿過晶片外圍的做法是低效且笨拙的。為了均勻地冷卻晶片,水流會(huì)經(jīng)過附著在芯片上的冷卻板[7]。Demler表示,制造這個(gè)單芯片需要做出很大的努力。
該公司尚未公布新系統(tǒng)的價(jià)格,但該系統(tǒng)已經(jīng)有了它的第一位客戶。2019年9月,Cerebras公司與美國(guó)能源部(US Department of Energy)宣布了一項(xiàng)長(zhǎng)期合作計(jì)劃,以促進(jìn)美國(guó)伊利諾伊州芝加哥附近的萊蒙特市阿貢國(guó)家實(shí)驗(yàn)室(Argonne National Laboratory)和加利福尼亞州的勞倫斯·利弗莫爾國(guó)家實(shí)驗(yàn)室(Lawrence Livermore National Laboratory)之間的深度學(xué)習(xí)研究[8]。阿貢實(shí)驗(yàn)室的計(jì)算、環(huán)境與生命科學(xué)實(shí)驗(yàn)室副主任Rick Stevens表示,WSE是促進(jìn)美國(guó)能源部眾多深度學(xué)習(xí)實(shí)驗(yàn)的理想工具。
據(jù)Kumar表示,如此大的芯片可能仍然存在局限性。一般來說,芯片尺寸越大,產(chǎn)出率就越低。因?yàn)殡娫春屠鋮s系統(tǒng)都是專用的,所以該芯片可能僅適用于少量客戶。并且,WSE是一個(gè)集成系統(tǒng),它不能再與其他類型的技術(shù)合并。這限制了該芯片的存儲(chǔ)容量,進(jìn)而限制了其應(yīng)用程序的適用性。
對(duì)WSE來說,真正考驗(yàn)它的是其在實(shí)際應(yīng)用中性能以及與其他系統(tǒng)比較時(shí)它的表現(xiàn)。Demler表示,WSE是一項(xiàng)杰出的工程成就,但是我們現(xiàn)在必須要證明WSE的有效性和它在最終應(yīng)用程序中所顯現(xiàn)出的真正優(yōu)勢(shì)。