隨著研究領(lǐng)域的日趨擴(kuò)展,海量數(shù)據(jù)成為學(xué)術(shù)研究中的底層支柱,提供更優(yōu)化的算力服務(wù)也成為高校的關(guān)鍵任務(wù)。與此同時,不同高校具有不同特性,對于算力服務(wù)的需求也呈多元特征,推進(jìn)算力服務(wù)的方法也應(yīng)因需而變、因校而變。從校企合作到借助國家力量,從集中式設(shè)施到分布式部署,在不同客觀條件下,國外高校也都因地制宜、因勢利導(dǎo),呈現(xiàn)出算力服務(wù)建設(shè)的多樣圖譜。
出于資金或技術(shù)上的需求,國外高校往往選擇與企業(yè)合作進(jìn)行超算建設(shè),分擔(dān)建設(shè)成本。例如,人工智能超級計算機(jī)HiPerGator便由美國佛羅里達(dá)大學(xué)與英偉達(dá)公司合作建設(shè)。
該超級計算機(jī)共有1120個A100 GPU和2.5 PB全閃存高性能存儲系統(tǒng),共有70000個核心,其中30000個核心各具備4GB內(nèi)存,而最新的40000個則有8GB內(nèi)存。測試高性能計算集群系統(tǒng)浮點性能的基準(zhǔn)程序HPL結(jié)果顯示,HiPerGator的英特爾和AMD核心共提供約2 Petaflops(1 Petaflop等于每秒鐘進(jìn)行1千萬億次的數(shù)學(xué)運算)的計算速度??偟膩碚f,HiPerGator人工智能系統(tǒng)的HPL評級超過16 Petaflops,而理論上,人工智能性能的峰值為700 Petaflops。
HiPerGator超級計算機(jī)機(jī)房設(shè)置
一切都起源于佛羅里達(dá)大學(xué)與英偉達(dá)公司的合作計劃。2020年7月21日,雙方表示將合作打造全球?qū)W術(shù)界速度最快的AI超級計算機(jī)。該計劃得到了英偉達(dá)公司5000萬美元的資金援助,其中畢業(yè)于佛羅里達(dá)大學(xué)的英偉達(dá)聯(lián)合創(chuàng)始人克里斯·馬拉喬夫斯基個人捐贈了2500萬美元,公司則提供了價值2500萬美元的硬件、軟件、培訓(xùn)和其他服務(wù)。佛羅里達(dá)大學(xué)則投入2000萬美元,創(chuàng)建一個以AI為核心的超級計算和數(shù)據(jù)中心。
馬拉喬夫斯基在一次由佛羅里達(dá)大學(xué)和公司高層共同參加的活動中表示:“為造福所有人,我們創(chuàng)立了一個強(qiáng)大的、具有借鑒意義的公私合作模式?!?/p>
更重要的是,這項合作并不僅限于創(chuàng)造一臺擅于計算的機(jī)器。
英偉達(dá)公司還計劃持續(xù)為佛羅里達(dá)大學(xué)貢獻(xiàn)其AI專業(yè)知識,并達(dá)成以下合作:第一,英偉達(dá)深度學(xué)習(xí)學(xué)院將與佛羅里達(dá)大學(xué)合作,為學(xué)生開發(fā)新的課程,包括調(diào)整項目滿足年輕人和青少年的需求,激發(fā)他們對理工類課程和AI的興趣,為未來的教育和就業(yè)做更充分的準(zhǔn)備;第二,佛羅里達(dá)大學(xué)將成為最新的英偉達(dá) AI技術(shù)中心基地,佛羅里達(dá)大學(xué)研究生院和英偉達(dá)員工將共同推動AI的發(fā)展;第三,英偉達(dá)方案架構(gòu)師和產(chǎn)品工程師將與佛羅里達(dá)大學(xué)合作,在校園內(nèi)安裝、運行和優(yōu)化包括最新AI軟件應(yīng)用在內(nèi)的英偉達(dá)超級計算資源。
除資金、資源與人員合作外,校企間的創(chuàng)新性技術(shù)合作也為更高效、可持續(xù)的高性能計算集群創(chuàng)造了可能。例如,聯(lián)想公司的水冷和“熱通道”定向通風(fēng)技術(shù)使紐約大學(xué)高性能計算集群Greene不僅成為高等教育領(lǐng)域中最強(qiáng)大的十大超級計算機(jī)之一,也使其成為世界上最綠色的100臺超級計算機(jī)之一。
紐約大學(xué)Greene高性能計算集群由665臺服務(wù)器和32000個CPU核心組成,它配備了332個GPU卡。該集群的總內(nèi)存為145TB,并配有9 PetaBytes的GPFS數(shù)據(jù)存儲。該計算集群性能優(yōu)越,經(jīng)HPL基準(zhǔn)測試后,Greene的整體性能超過了4 Petaflops,意味著它每秒可以進(jìn)行四千萬億次(4 x 1015)計算——比其前身高性能計算Prince集群強(qiáng)大十倍,比紐約大學(xué)2005年的超級計算機(jī)快1000倍。
Greene超級計算機(jī)機(jī)房設(shè)置
與此同時,Greene是一個高效的、環(huán)保的HPC集群,它既滿足了對下一代計算和存儲能力的需求,又減少了對化石燃料的依賴?;谝韵聞?chuàng)新,Greene將消耗更少的電力,產(chǎn)生更低的使用成本,并更加環(huán)??沙掷m(xù)。
首先,Greene的電力使用效率(簡稱PUE,是評價數(shù)據(jù)中心能源效率的指標(biāo),等于數(shù)據(jù)中心消耗的所有能源與IT設(shè)備使用的能源之比,PUE基準(zhǔn)為2,越接近1表明能效水平越好)為1.35或更低。其次,Greene采用了聯(lián)想的Neptune溫水冷卻技術(shù)對CPU節(jié)點進(jìn)行水冷,使部分計算機(jī)的PUE達(dá)到1.08。對于30000個CPU核心,水將去除95%的熱量且不需要任何空調(diào)。第三,Greene具有更有效的數(shù)據(jù)中心設(shè)備安排,白色機(jī)架將減少15%~20%的熱量消耗,“熱通道”(計算機(jī)背靠背排列)將進(jìn)行更有效的熱捕獲并通過屋頂通風(fēng)。因此,高電力使用效率和低能耗的結(jié)合將有效降低Greene的計算成本。
紐約大學(xué)校長安德魯·漢密爾頓表示:“高性能計算、大數(shù)據(jù)和人工智能在整個高等教育的許多研究領(lǐng)域都是至關(guān)重要的,特別是在紐約大學(xué)。最重要的是,我們要繼續(xù)為各學(xué)科領(lǐng)域的研究人員提供他們所需的資源,以拓展知識邊界,超越我們可能還無法想象的東西。但是,為了我們的地球,我們也必須想方設(shè)法在保持計算速度的同時擺脫對化石燃料的依賴。Greene是一個很好的例子,說明我們可以同時實現(xiàn)這兩個目標(biāo)?!?/p>
首席數(shù)字官兼研究技術(shù)副校長大衛(wèi)·阿克曼則表示:“紐約大學(xué)與聯(lián)想公司和EYP設(shè)計公司在Greene的設(shè)計和安裝方面進(jìn)行了非常密切的合作,各方面的成果都非常出色,我們擁有全國最強(qiáng)大的、由大學(xué)投資建設(shè)的超級計算機(jī),運行成本只有其前身的三分之一。像水冷和‘熱通道’定向通風(fēng)這樣的創(chuàng)新技術(shù),確保我們可以在不斷提升研究能力的同時實現(xiàn)更宏大的目標(biāo),即在2050年達(dá)到碳中和。”
不管是技術(shù)合作還是資源合作,都為高校最終建成自身所有的超算中心所服務(wù),然而,并非所有高校有能力或有必要建設(shè)專屬超算中心,因此,對于中小型高校來說,借助國家機(jī)構(gòu)力量進(jìn)行超算研究便成為最佳選擇。
例如,在今年2月28日舉行的亞洲超級計算大會上,新加坡國家超級計算中心(NSCC)、新加坡工藝教育學(xué)院、新加坡共和理工學(xué)院、新加坡理工學(xué)院、新加坡科技學(xué)院、AI新加坡和新加坡工程師學(xué)會簽署諒解備忘錄(memorandum of understanding,用于雙方或多方之間達(dá)成一致的重要事項),希望探索新的培訓(xùn)方法、課程設(shè)置和教學(xué)大綱,充分利用超級計算機(jī)的力量。
諒解備忘錄以 “通過AI與HPC賦能新加坡的教育和人才發(fā)展 ”為主題。新加坡國家超級計算中心與各新加坡高校以及新加坡工程師學(xué)會將建立合作關(guān)系,并在高性能計算、AI、數(shù)據(jù)科學(xué)和分析及高級仿真和建模等領(lǐng)域創(chuàng)辦新的培訓(xùn)課程、研討會和學(xué)生競賽,共同培養(yǎng)高性能計算人才。
為了支持新的合作,新加坡國家超級計算中心還宣布,該國的下一代國家超級計算機(jī)——用于千萬億次量級創(chuàng)新研究的超級計算機(jī)ASPIRE 2A將提供給新加坡學(xué)界使用。
ASPIRE 2A具體配置
ASPIRE 2A也利用了溫水冷卻技術(shù),將提供總計高達(dá)10 Petaflops的計算能力,比目前的ASPIRE 1超級計算機(jī)強(qiáng)大七倍。第一代ASPIRE 1超級計算機(jī)于2016年投入使用,長時間近乎滿負(fù)荷運行。ASPIRE 2A的第一次正式項目征集已于今年第二季度啟動,此次征集邀請新加坡研究人員申請新機(jī)器上的計算資源。ASPIRE 2A將支持大學(xué)、研究機(jī)構(gòu)、政府機(jī)構(gòu)或企業(yè)在氣候變化、生物醫(yī)學(xué)和智能國家活動等一系列科學(xué)領(lǐng)域內(nèi)的研究。
國家超級計算中心指導(dǎo)委員會主席Quek Gim Pew表示:“ASPIRE 2A系統(tǒng)是新加坡長期投資戰(zhàn)略的一部分,以確保新加坡的研究人員能夠熟練掌握必要的HPC資源,從而快速推進(jìn)研究。我們設(shè)想,新的超級計算資源將幫助科學(xué)家在氣候變化、基因組學(xué)、醫(yī)療保健、人工智能和機(jī)器學(xué)習(xí)及先進(jìn)制造業(yè)等研究領(lǐng)域進(jìn)一步發(fā)展?!?/p>
與新加坡高校借助國家力量相似,英國高校的高性能計算集群也由政府部門出資建設(shè),然而,與前者集中式的國家級超算中心相比,英國高校具備更小型的、分布式部署的高性能計算集群——二級超級計算服務(wù),其設(shè)施遍布各大高校,不同集群也往往承擔(dān)著不同主題的研究。
二級超級計算服務(wù)指一組中小規(guī)模的分布式超級計算機(jī)系統(tǒng), 位于國家一級系統(tǒng)(如英國國家級超算中心ARCHER)和校園三級系統(tǒng)之間,用于填補這兩個級別之間的能力差距。此類二級超算服務(wù)將對英國工程與自然科學(xué)研究理事會(以下簡稱EPSRC)社群內(nèi)的所有研究人員開放,提供便利的本地訪問,同時與整個英國的超算生態(tài)系統(tǒng)相結(jié)合,縱向深入一級和三級系統(tǒng),橫向則整合其他二級中心。英國國內(nèi)的二級超算項目主要有Isambard、Kelvin-2、JADE、Cirrus、NICE、CSD3、Baskerville等。
二級超算服務(wù)具有以下特征:
1.中型規(guī)模:二級超級計算機(jī)的算力規(guī)模介于小型工作站和大型超級計算機(jī)之間,通常峰值運算能力在每秒幾十萬億次到幾百萬億次之間。
2.分布式部署:二級超級計算機(jī)部署在英國多所
Baskerville是EPSRC的二級高性能計算中心,由伯明翰大學(xué)、羅莎琳·富蘭克林研究所、艾倫·圖靈研究所和英國國家同步輻射器基地合作建立。Baskerville 項目在官網(wǎng)提供了使用指南Baskerville Basics,借此,無論用戶來自于哪一學(xué)科、是否使用過超算服務(wù),都可以快速了解Baskerville的能力,學(xué)習(xí)有效使用其資源。高校、研究機(jī)構(gòu)和超級計算中心,其分布在不同的地理位置。
3.針對中小規(guī)模計算需求:相比大型超級計算機(jī),二級超級計算機(jī)主要滿足中小規(guī)模的科研計算需求,適合于個人研究者和小組使用。
4.提供存儲和輔助服務(wù):除CPU計算資源外,二級超級計算機(jī)還提供相關(guān)的數(shù)據(jù)存儲、網(wǎng)絡(luò)傳輸、可視化、軟件環(huán)境等服務(wù)。
5.資源共享:不同部署地點的二級超級計算資源可以通過高速網(wǎng)絡(luò)連接,實現(xiàn)資源的協(xié)同和共享,用戶可以訪問多個位置的計算資源。
6.支持大數(shù)據(jù)分析:二級超級計算機(jī)具有強(qiáng)大的存儲和網(wǎng)絡(luò)能力,可支持大規(guī)模科研數(shù)據(jù)的存儲、管理和分析計算。
在二級系統(tǒng)中,有部分超算中心由英國高校領(lǐng)導(dǎo),如伯明翰大學(xué)領(lǐng)導(dǎo)的Baskerville中心、倫敦大學(xué)學(xué)院領(lǐng)導(dǎo)的MMM中心和由貝爾法斯特女王大學(xué)和阿爾斯特大學(xué)共同管理的NI-HPC中心。
材料理論和模擬是現(xiàn)代科學(xué)研究中最繁榮和最有活力的領(lǐng)域之一。MMM中心(材料和分子模擬中心)正是為材料和分子建模領(lǐng)域所設(shè)計的二級超級計算設(shè)施,供英國各地的用戶使用。MMM中心由倫敦大學(xué)學(xué)院代表其余八個合作者領(lǐng)導(dǎo),合作者包括帝國理工大學(xué)、倫敦國王學(xué)院、倫敦瑪麗女王大學(xué)、牛津大學(xué)、南安普敦大學(xué)、肯特大學(xué)、貝爾法斯特大學(xué)和劍橋大學(xué)。
NI-HPC中心是英國二級國家高性能計算設(shè)施之一,由EPSRC資助,并由貝爾法斯特女王大學(xué)和阿爾斯特大學(xué)共同管理。其特點是將高性能計算模型引入神經(jīng)技術(shù)和計算神經(jīng)科學(xué)、創(chuàng)新藥物輸送、精準(zhǔn)醫(yī)學(xué)、代謝組學(xué)及氫安全等方向。